Organisationseinheit
Institut für Prozessdatenverarbeitung und Elektronik (IPE)
Ihre Aufgaben
Fortschritte in nahezu allen Bereichen der physikalischen Forschung beruhen auf der Aufzeichnung und Analyse enormer Datenmengen. Dies gilt gleichermaßen für die Hochenergiephysik am LHC, geplante zukünftige Lepton- und Neutrinodetektoren sowie für Experimente an hochintensiven Lichtquellen wie dem EU-XFEL oder PETRA III. Jüngste Verbesserungen in der Detektorinstrumentierung liefern Forschern beispiellose Details. Gleichzeitig übertreffen die Datenraten die Leistungsverbesserungen von Speichersystemen bei weitem. Die Online-Datenreduktion ist entscheidend für die nächste Generation von Detektoren.
Wir wollen eine engere Integration der Datenerfassungsworkflows mit Cloud-basierten HPC-Zentren erreichen. Ziel dieser Arbeit ist der Aufbau einer Infrastruktur, um Daten direkt vom Detektor in das lokale HPC-Rechenzentrum zu übertragen und die HPC-Ressourcen für die Datenverarbeitung und -reduktion zu nutzen. Die rasanten Fortschritte in der Ethernet-Technologie ermöglichen eine ausreichende Auslesebandbreite, aber effiziente Datenverteilungsmethoden, die auf RDMA-Technologien basieren, sind erforderlich, um die Netzwerkkapazität effizient zu nutzen. Eine der Herausforderungen ist die Entwicklung eines effizienten Protokolls zur Erleichterung der Kommunikation zwischen DAQ-Hardware und Datenverarbeitungscluster und zur Vereinfachung der Entwicklung skalierbarer Datenreduktionsmodule. Als Pilotprojekt wollen wir den Einsatz äußerst komplexer Machine-Learning-Modelle ermöglichen, die über mehrere Knoten hinweg ausgeführt und mit FPGAs, GPUs oder/und kundenspezifischen Neurocomputern beschleunigt werden können. Wir wollen die Echtzeit-Datenreduktion und -Klassifizierung von Datenströmen mit Raten im Bereich von 10 - 20 GB/s pro Detektor ermöglichen (Mehrdetektorsysteme sind vorgesehen).
Vom Studenten wird erwartet, dass er eine Teilmenge der folgenden Aufgaben ausführt:
Benchmarken von Hochgeschwindigkeits-Kommunikationsprotokollen, z. B. UDP, STCP, QUIC. Recherchieren Sie verfügbare High-Throughput-Alternativen zum Standard-Linux-Netzwerkstack, z. B. DPDK oder LibVMA.
Neueste Mellanox-Adapter ermöglichen das Auslagern eines Teils der Paketverarbeitung in die Hardware. Untersuchen Sie die bereitgestellten Funktionen und schlagen Sie vor, ob diese zur weiteren Erhöhung des Netzwerkdurchsatzes verwendet werden können.
Evaluieren Sie verfügbare RDMA-Erweiterungen, um Daten direkt an die Berechnungsbeschleuniger wie FPGAs oder GPUs zu liefern, z. B. RoCE oder iWARP.
Entwerfen Sie ein Application-Layer-Protokoll, das Ethernet-verbundene Detektoren mit Datenverarbeitungsclustern integriert. Das Protokoll sollte einen Steuerkanal zum Setzen und Lesen von Detektorparametern (Registern) und einen High-Speed-Datenstreaming-Kanal enthalten.
Evaluieren Sie verschiedene Methoden zur Skalierung des Datenflusses über mehrere Clusterknoten. Bewerten Sie Skalierbarkeitspotenzial, Fehlertoleranz, Kosten und Einfachheit der Implementierung.