
Ein weites Netz für neue Physik auswerfen
Thea Klaeboe Aarrestad spricht über ihre Forschung am CERN und schildert, wie sie sich für die Leistungsfähigkeit von Methoden des maschinellen Lernens in der Teilchenphysik interessiert hat.
Dr. Thea Klaeboe Aarrestad ist Ambizione-Stipendiatin des SNF in der Gruppe von Professor Günther Dissertori am Institut für Teilchenphysik und Astrophysik. Für ihre herausragenden Beiträge zur experimentellen Teilchenphysik wurde sie mit dem externe Seite Young Experimental Physicist Prize der High Energy and Particle Physics Division der European Physical Society (EPS) ausgezeichnet. Wir sprachen mit Aarrestad darüber, wie sie dazu kam, die Leistungsfähigkeit von Methoden des maschinellen Lernens für ihre Forschung zu nutzen.
Wie haben Sie reagiert, als Sie erfuhren, dass Sie diesen Preis erhalten haben?
Ich war auf dem Flughafen, auf dem Weg zu einer Konferenz, als ich davon erfuhr! Ich war wirklich überrascht, aber auch sehr glücklich.
Der Preis würdigt die enormen Impulse, die Sie den Techniken des maschinellen Lernens für die Teilchenphysikforschung am Large Hadron Collider (LHC) am CERN gegeben haben. Wie sind Sie auf diesen Forschungszweig aufmerksam geworden?
In meiner Masterarbeit habe ich multivariate Methoden des maschinellen Lernens (ML) verwendet, die ein Vorläufer dessen sind, was wir heute tun. Ich war also schon damals an neuen Möglichkeiten interessiert, jedes potenziell relevante physikalische Signal mit ML-Algorithmen zu verbessern. Später, als Doktorand, wurde ich immer neugieriger, weil sich das Feld so schnell weiterentwickelte und ich sah, dass das maschinelle Lernen eine wirklich spannende Möglichkeit bot, in der Teilchenphysik zu forschen. Für den letzten Teil meiner Dissertation schlug ich meinem Doktorvater vor, ein tiefes neuronales Netzwerk für die Datenanalyse zu verwenden: Es war erstaunlich zu sehen, wie die anderen Methoden, die ich in meiner Dissertation verwendete, von dem tiefen neuronalen Netzwerk sofort übertroffen wurden.
Ich habe drei Jahre meiner Doktorarbeit damit verbracht, in den LHC-Daten nach etwas Neuem zu suchen und meine Datenanalyse mit hochentwickelten Werkzeugen zu optimieren, um mögliche Hinweise auf eine Physik jenseits des Standardmodells (SM) zu finden. Wir waren voller Hoffnung, aber wir haben nichts gefunden. Mir kam es zunehmend seltsam vor, in unseren Daten nach solch spezifischen Signaturen zu suchen: Es musste einen Weg geben, ein grösseres Netz auszuwerfen, wenn man nach Abweichungen vom Standardverhalten sucht; einen Weg, um in dieser riesigen Datenmenge gleichzeitig nach mehreren Merkmalen zu suchen.
Wir wissen, dass es neue Physik gibt, aber wir stehen vor zwei grossen Herausforderungen. Die erste besteht darin, dass wir diese grosse Menge an SM-Hintergrunddaten haben und nach winzigen Abweichungen von den SM-Vorhersagen suchen, die mit einem hohen Mass an Genauigkeit bestätigt werden können – dem berühmten statistischen 5-Sigma-Niveau. Die zweite Herausforderung besteht darin, dass die Experimente Terabytes an Kollisionsdaten erzeugen, was bedeutet, dass wir nur einen sehr kleinen Teil davon lesen können: In der Praxis müssen wir sehr schnell entscheiden, ob wir einen bestimmten Datensatz behalten oder loswerden. Diese Art der Auswahl kann gut funktionieren, wenn man weiss, wonach man sucht, zum Beispiel nach dem Higgs-Boson – dann kann man seine Auswahlkriterien gut motivieren. Heute führen wir jedoch sehr viel offenere Suchen durch und möchten daher die Daten auf eine möglichst unvoreingenommene Weise auswählen.
Wie können wir also Analysefehler auf ein Minimum beschränken und unsere Suche nach winzigen Abweichungen vom SM effizienter gestalten? Deep-Learning-Techniken wurden bereits auf die Erkennung von Anomalien angewandt: ein Beispiel sind Kreditkartentransaktionen, bei denen man anormale und potenziell betrügerische Aktivitäten erkennen möchte. Diese Algorithmen werden nicht mit dem Standardverhalten eines Kreditkarteninhabers gefüttert – sie lernen es aus den Daten. Wenn Sie das Deep-Learning-Netzwerk richtig konzipieren, nimmt es die Merkmale aus Ihrem Datensatz auf und lernt, Ausreisser im Vergleich zu dem zu erkennen, was Sie den Grossteil der Daten nennen. An diesem Punkt dachten wir uns, dass wir genau das tun wollen: unvoreingenommen lernen und nach Abweichungen von der Masse unserer SM-Daten suchen. Mit den von uns entwickelten ML-Tools können wir Daten analysieren, indem wir die Frage stellen: Gibt es auf der Grundlage der von uns ermittelten Daten und ohne Hinzufügung einer spezifischen Hypothese eine signifikante statistische Abweichung? Dank dieser Strategie konnten wir mit einer einzigen Analyse nach mehr als 50 potenziellen Signaturen in unserem Datensatz suchen. Dieser neue ML-Ansatz für die Analyse von LHC-Daten ist Teil des EPS-Preises.

In der Ankündigung des Preises wird auch Ihr Beitrag zum ersten auf der Erkennung von Anomalien basierenden Trigger für einige Experimente am CERN erwähnt. Wie verbessert dies die Art und Weise, wie Daten in grossen Teilchenphysikexperimenten gehandhabt werden?
Wenn die Art und Weise, wie wir die Daten analysieren, ein entscheidender Aspekt ist, so hat ein weiterer wichtiger Punkt mit den Trigger-Systemen zu tun, die wir für die grossen Experimente am LHC verwenden. Wie bereits erwähnt, betrachten wir nur einen sehr kleinen Teil der Daten, die von den unterirdischen Detektoren gesammelt werden. Von den etwa 40 Millionen Kollisionen/s, die unter der Erde aufgezeichnet werden, senden wir etwa 100 000 Kollisionen/s an die Oberfläche. Dann reduzieren wir diese Daten auf etwa 1000 Kollisionen pro Sekunde, da wir nicht mehr speichern und analysieren können.
Unsere ML-Tools wurden für diese sehr kleine Teilmenge von Kollisionen entwickelt, aber das ideale Szenario ist es, von Anfang an so modellunabhängig und unvoreingenommen wie möglich zu sein: Das bedeutet, dass wir unsere Tools in den Filterungsprozess einbringen müssen, der im Untergrund stattfindet. Das ist nicht trivial, und zwar ausfolgendem Grund: Die zunächst im unterirdischen Detektor gespeicherten Daten werden über optische Hochgeschwindigkeitsverbindungen in eine strahlungsgeschützte Kaverne in unmittelbarer Nähe des Detektors innerhalb von 3 us übertragen. In dieser Phase erfolgt eine ultraschnelle Rekonstruktion und Filterung der Daten auf so genannten FPGAs (Field-programmable Gate Arrays). FPGAs sind nicht einfach zu programmieren, und unser Ziel war es, tiefe neuronale Netze auf FPGAs zu setzen und gleichzeitig sicherzustellen, dass sie innerhalb von 50 ns Entscheidungen treffen können – jeder Algorithmus, der auf einem FPGA läuft, trägt zur Latenzzeit des Systems bei, die 3 us beträgt, so dass jeder von ihnen 100 ns nicht überschreiten darf.
Niemand auf der Welt brauchte neuronale Netze, die so schnell sind, und wir wollten, dass sie auch noch sehr genau sind! Um dieses Ziel zu erreichen, haben wir viele neue Techniken entwickelt, die sich als aussergewöhnlich leistungsfähig erwiesen haben, nicht nur in Bezug auf die Geschwindigkeit, sondern auch auf den geringeren Stromverbrauch. So ging das Interesse an unserer Arbeit über die Teilchenphysik hinaus und führte im Laufe der Zeit zu Kooperationen mit der Industrie: Unsere Netze sind sehr energieeffizient, was für einige industrielle Anwendungen von Bedeutung ist.
Im Jahr 2024 waren CMS und ATLAS die ersten grossen Teilchenphysikexperimente am CERN, die ML-basierte Auslöser für die Datensammlung verwendeten. Das bedeutet, dass der auf unseren Werkzeugen basierende Auswahlalgorithmus zu anderen, eher standardmässigen Auslösern hinzugefügt wurde: Sobald einer von ihnen eine potenzielle Abweichung oder Anomalie findet, weist er den Detektor an, diesen Datenstapel freizugeben und an die Oberfläche zu senden. Im Moment sind diese beiden Experimente die einzigen, die unsere Tools in ihre Datenfilterungsprozesse integriert haben, aber unsere Vision ist es, dass jedes Experiment am CERN unsere Tools nutzen kann, unabhängig davon, welche Art von FPGA sie haben.
Aus dem Englischen übersetzt von Kilian Kessler