Technische Universität Berlin

Bei der Technischen Universität Berlin ist/sind folgende Stelle/n zu besetzen:

Wiss. Mit­ar­bei­ter*in (d/m/w) - Ent­gelt­gruppe 13 TV-L Ber­li­ner Hoch­schu­len

unter dem Vor­be­halt der Mit­tel­be­wil­li­gung; Teil­zeit­be­schäf­ti­gung ist ggf. mög­lich

Aufgabenbeschreibung

Mitarbeit in Forschung und Lehre im Fachgebiet Verteilte Systeme und Betriebssysteme; Veröffentlichung von Forschungsergebnissen.

Große Sprachmodelle (LLMs) liegen im Trend. Die zunehmende Modellgröße erfordert jedoch die Entwicklung und Bereitstellung komplexerer IT-Infrastrukturen. Aufgrund von Speicherbeschränkungen wird zunehmend ein verteiltes LLM-Training durchgeführt, welches jedoch große und komplexe IT-Infrastrukturen erfordert. Dadurch steigt auch die Ausfallwahrscheinlichkeit einzelner Komponenten, die wiederum zu höheren Betriebskosten und Ressourcenverschwendung führt. Eine effektive Fehlerüberwachung erfordert daher ein umfassendes Verständnis der IT-Infrastruktur unter Berücksichtigung des Zusammenspiels von Metriken aus Inter-/Intra-Host-Netzwerken CPUs, NPUs, GPUs, Kommunikationsmuster sowie den Besonderheiten eines LLM-Trainings. Ziel dieses Projekts ist die Entwicklung eines Frameworks zur Erkennung und Vorhersage von Fehler in großen Sprachmodellen, insbesondere in Mixture of Experts-Architekturen. Dies basiert auf einer umfassenden Analyse und dem Verständnis von Fehlermechanismen in Kommunikations-, Rechen- und Speicherkomponenten während des Trainings und der Inferenz.

Wir konzentrieren uns auf folgende Themen: Verständnis und Analyse der während des LLM-Trainings generierten Signale, Simulation von Szenarien durch Hinzufügen von synthetisch generierten Fehlern, Verständnis von Wechselwirkungen zwischen Komponenten in großen Kl-Infrastrukturen, Überwachung und Interpretation von Daten aus der physikalischen Schicht (Hardware), der Datenschicht (Speicherung und Übertragung), der Rechenschicht und der Anwendungsschicht (Modelle). Unser Ziel ist es, gemeinsame Repräsentationen aus den verschiedenen Systemdatenquellen zu erlernen, um Anomalien und deren Ursachen zu erkennen. Dies beinhaltet die Entwicklung einer allgemeinen Methode, die Implementierung eines Prototyps im Kontext bestehender Open-Source-Systeme sowie die experimentelle Evaluierung des Prototyps mit Testdaten aus experimentellen und Produktionsdaten.

Die Möglichkeit zur Promotion ist gegeben.

Erwartete Qualifikationen

  • Erfolgreich abgeschlossenes wissenschaftliches Hochschulstudium (Master, Diplom oder Äquivalent) in Informatik mit Spezialisierung auf Betrieb komplexer IT-Infrastrukturen und Maschinelles Lernen
  • Erfahrung mit Statistiksoftware, Monitoring-Tools und Betriebssystemen
  • Erfahrung mit ML-Methoden für Erkennungs- und Klassifizierungsaufgaben
  • Erfahrung im Umgang mit großen Clustersystemen
  • Aufbau und Betrieb von Containern (z. B. Singularity, Docker)
  • Erfahrung mit TensorFlow/PyTorch/Keras
  • Gute Deutsch- und/oder Englischkenntnisse sind erforderlich; Bereitschaft, die jeweils fehlenden Sprachkenntnisse zu erwerben

Wünschenswert:

  • Interesse an der Systementwicklung und dem Betrieb groß angelegter Softwarearchitekturen sowie die Bereitschaft, aktuelle Forschungsergebnisse in die Praxis umzusetzen
  • Erfahrung im Verfassen und Publizieren wissenschaftlicher Arbeiten
  • Vertraut mit Methoden und Methodiken aus dem Bereich der Zeitreihenanalyse
  • Erfahrung und Interesse an den Themen KI und KI-Infrastrukturen
  • Erfahrung im Umgang mit erklärbaren Methoden des maschinellen Lernens und Daten aus heterogenen Quellen
  • Erfahrung in der Entwicklung zugänglicher Technologien
  • Interesse an Projektmanagement und agilen Entwicklungsmethoden

Hinweise zur Bewerbung

Ihre schriftliche Bewerbung richten Sie bitte unter Angabe der Kennziffer mit den üblichen Unterlagen (Lebenslauf, Notenliste, ggf. Nachweise von Sprachkenntnissen) an die Technische Universität Berlin, Herrn Prof. Odej Kao: odej.kao@tu-berlin.de.

Mit der Abgabe einer Online­be­wer­bung geben Sie als Bewer­ber*in Ihr Ein­ver­ständ­nis, dass Ihre Daten elek­tro­nisch ver­ar­bei­tet und gespei­chert wer­den. Wir wei­sen dar­auf hin, dass bei unge­schütz­ter Über­sen­dung Ihrer Bewer­bung auf elek­tro­ni­schem Wege keine Gewähr für die Sicher­heit über­mit­tel­ter per­sön­li­cher Daten über­nom­men wer­den kann. Daten­schutz­recht­li­che Hin­weise zur Ver­ar­bei­tung Ihrer Daten gem. DSGVO fin­den Sie auf der Web­seite der Per­so­nal­ab­tei­lung: https://www.abt2-t.tu-berlin.de/menue/themen_a_z/datenschutzerklaerung/ oder Direkt­zu­gang: 214041.

Zur Wah­rung der Chan­cen­gleich­heit zwi­schen Frauen und Män­nern sind Bewer­bun­gen von Frauen mit der jewei­li­gen Qua­li­fi­ka­tion aus­drück­lich erwünscht. Schwer­be­hin­derte wer­den bei glei­cher Eig­nung bevor­zugt berück­sich­tigt. Die TU Ber­lin schätzt die Viel­falt ihrer Mit­glie­der und ver­folgt die Ziele der Chan­cen­gleich­heit. Bewerbungen von Menschen aller Nationalitäten und mit Migrationshintergrund sind herzlich willkommen.

Tech­ni­sche Uni­ver­si­tät Ber­lin - Die Prä­si­den­tin - Insti­tut für Tele­kom­mu­ni­ka­ti­ons­sys­teme, FG Verteilte Systeme und Betriebssysteme, Prof. Dr. Odej Kao, Sekr. EN 22, Einsteinufer 17, 10587 Ber­lin

Fakten

Anzahl Angestellte ca. 7000
Kategorie Graduierten-Stelle, Wiss. Mitarbeiter*in
Standort Deutschland, Berlin, Berlin, Charlottenburg
Aufgabengebiet Forschung
Beginn frühestens 01.07.2025
Dauer befristet bis 30.06.2027
Umfang 100% Arbeitszeit; Teilzeitbeschäftigung ggf. möglich
Vergütung Entgeltgruppe E13
Homepage https://www.tu.berlin/dos

Anforderungen

Abschluss Master, Diplom oder Äquivalent

Kontakt

Kennziffer IV-195/25
Kontakt-Person Prof. Dr. Kao

Bewerben

Bewerbungsfrist 30.05.2025
Kennziffer IV-195/25
per Post

Technische Universität Berlin
- Die Präsidentin -
ausschließlich per E-Mail / only by email

per E-Mail odej.kao@tu-berlin.de