KI im Large Hadron Collider: Wie Kollisionen gefiltert werd…

KI im Large Hadron Collider: Wie Kollisionen gefiltert werden

Der Large Hadron Collider (LHC) am CERN erzeugt während des Betriebs Protonenkollisionen mit einer Frequenz von mehreren zehn Millionen pro Sekunde. Die Speicherung der Rohdaten jeder Kollision ist physikalisch unmöglich: Die Bandbreite von Speicher und Netzwerk kann nicht mithalten. Daher muss das Triggersystem den Großteil der Ereignisse innerhalb weniger Mikrosekunden verwerfen, bevor die Daten überhaupt auf die Festplatte gelangen. Über Jahrzehnte hinweg wurde dies von speziell für bestimmte Teilchensignaturen entwickelter Hardware erledigt. Seit einigen Jahren kommen in einigen Schichten dieser Pipeline maschinelle Lernmodelle zum Einsatz. Sie ersetzen keine Physiker. Sie helfen ihnen, schneller Signal von Rauschen in Daten zu unterscheiden, deren Struktur manuelle Regeln nicht vollständig abbilden.

Warum die Ereignisfilterung ein Rechenproblem ist

Eine Protonenkollision im LHC erzeugt Dutzende sekundärer Teilchen. Jedes davon hinterlässt Spuren in mehreren Schichten des Detektors. Ein einzelnes Ereignis besteht aus einem Strom von Daten aus Hunderttausenden Messkanälen. Bei Dutzenden Millionen Kollisionen pro Sekunde entsteht ein Datenstrom, der selbst bei aggressiver Kompression im Bereich von Terabytes pro Sekunde liegt.

Das traditionelle Triggersystem arbeitet in zwei oder drei Schichten. Die erste Schicht (Level-1 Trigger) besteht aus programmierbarer Hardware (FPGA), die innerhalb weniger Mikrosekunden ein einfaches Kriterium anwendet: Überschreitet die in einem bestimmten Bereich des Detektors gemessene Energie einen Schwellenwert? Ereignisse, die diesen Test nicht bestehen, werden unwiderruflich verworfen. Die zweite und dritte Schicht arbeiten langsamer, haben aber Zugang zu einer vollständigeren Rekonstruktion der Teilchenspur und können komplexere Kriterien anwenden.

Das Problem ist strukturell: Manuell definierte Schwellenregeln sind effektiv für Prozesse, die Physiker mathematisch vorab beschreiben können. Für seltene Prozesse, deren Signatur dem Hintergrundrauschen ähnelt, lassen die Regeln entweder zu viel Rauschen durch oder verwerfen potenziell interessante Ereignisse. Hier kommen maschinelle Lernmodelle ins Spiel.

Was ein Klassifikationsmodell im Triggersystem leistet

In mehreren Experimenten am LHC (u. a. LHCb und ATLAS) werden neuronale Netze getestet, die direkt auf FPGA-Chips oder in einer schnellen Softwareschicht unmittelbar nach Level-1 implementiert sind. Das Modell erhält als Eingabe einen Merkmalsvektor, der ein Ereignis beschreibt: Energien, Impulse, Winkel, Identifikatoren sekundärer Vertices. Am Ausgang erzeugt es ein Ergebnis, das angibt, ob das Ereignis zu einer bestimmten Klasse physikalischer Prozesse passt.

Der entscheidende Kompromiss ist die Inferenzzeit. Das Modell muss in das Zeitfenster des Triggersystems passen, oft unter wenigen Mikrosekunden. Das schließt große Modelle aus. Verwendete Architekturen sind flache, vollständig verbundene Netze oder spezialisierte Graph-Netzwerke (zur Rekonstruktion von Spuren im 3D-Raum). Die Genauigkeit der Klassifikation ist messbar und mit Alternativen vergleichbar: Physiker interessiert konkret, wie viel Prozent der Signalevents das Modell durchlässt und wie viel Prozent des Hintergrunds fälschlicherweise als Signal markiert werden.

Die folgende Tabelle vergleicht drei Ansätze zur Ereignisauswahl in einer Prozessklasse:

Ansatz	Signaleffizienz	Hintergrundanteil (ca.)	Entscheidungszeit
Manuelle Schwellenregeln	hoch für bekannte Signaturen	hoch bei neuen Prozessen	wenige µs
Flaches neuronales Netz (FPGA)	vergleichbar oder höher	um einige Prozent niedriger	1-3 µs
Graph-Neuronales Netz (CPU/GPU)	höchste in Tests	niedrigster in Tests	10-100 µs

Die Zahlen sind Näherungswerte und hängen stark vom konkreten physikalischen Kanal ab. Wir bei Cashcrown arbeiten nicht an Teilchendetektoren, aber die Problemarchitektur ist uns vertraut: ein schneller Klassifikator als Vorfilter, eine langsamere und teurere Analyse nur für Ereignisse, die den Filter passiert haben.

Grenzen: Was das Modell nicht kann

Jedes Klassifikationsmodell im Trigger wird mit Monte-Carlo-Simulationen und Daten aus früheren Läufen (Runs) trainiert. Das bedeutet, dass das Modell nur Klassen von Prozessen erkennt, deren Beispiele im Trainingsdatensatz enthalten waren. Ein Ereignis aus „neuer Physik“ (Prozesse jenseits des Standardmodells) könnte eine Signatur aufweisen, die das Modell nie gesehen hat. In einer solchen Situation wird der Klassifikator das Ereignis mit hoher Wahrscheinlichkeit als Hintergrund verwerfen, da es zu keinem Muster passt, das er als Signal erkannt hat.

Das ist kein Projektfehler. Es ist eine grundsätzliche Einschränkung des überwachten Lernens: Das Modell generalisiert auf Basis dessen, was es gesehen hat. Daher ersetzen KI-Systeme im Trigger nicht die bisherigen Regeln. Sie arbeiten parallel oder in einer zusätzlichen Schicht, und ein Teil der Bandbreite wird gezielt für zufällig ausgewählte oder durch klassische Regeln bestimmte Ereignisse reserviert, die als Sicherheitsnetz dienen.

Ein weiteres Problem ist der Detektordrift. Die Betriebsbedingungen des LHC ändern sich: Die Luminosität steigt, das Detektormaterial altert, die Kabelgeometrie beeinflusst die Signalverteilungen. Ein Modell, das mit Daten vom Anfang der Messsaison trainiert wurde, kann nach einigen Monaten an Effektivität verlieren. Die Observability des KI-Systems im Trigger erfordert eine kontinuierliche Überwachung der Merkmalsverteilungen und der Akzeptanzrate, nicht nur der Rechenleistung.

Die dritte Grenze ist die Erklärbarkeit. Ein Physiker, der eine Anomalie in den Daten entdeckt, muss erklären können, warum ein Ereignis vom Trigger gespeichert wurde. Wenn die Entscheidung von einem klassischen Schwellenfilter getroffen wurde, ist die Erklärung trivial. Wenn eine neuronale Netzwerk diese traf, benötigt der Physiker Werkzeuge, um zu überprüfen, ob das Modell nicht auf eine artifizielle Korrelation statt auf ein physikalisches Signal reagiert hat.

Human-Oversight: Wo der Experte in den Prozess eingreift

Das Triggermodell arbeitet nicht im luftleeren Raum. Bei jeder Implementierung eines neuen Modells oder Änderung seiner Parameter ist ein Validierungsverfahren durch den für den jeweiligen Messkanal verantwortlichen Physiker vorgeschrieben. Überprüft wird die Übereinstimmung der Modellausgaben mit Monte-Carlo-Simulationen, die Stabilität der Akzeptanzrate über die Zeit und das Fehlen von Korrelationen des Ergebnisses mit Detektorartefakten.

In großen Kollaborationen (ATLAS, CMS, LHCb) durchlaufen Änderungen am Triggersystem ein internes Review-Verfahren. Niemand implementiert eine neue Modellversion zwischen Datenerfassungen. Jede Änderung der Triggerkonfiguration wird präzise datiert und protokolliert, da dies die Korrektheit der Analyse der vor und nach der Änderung gesammelten Daten bedingt.

Das Muster Human-Oversight ist hier strukturell: Das Modell trifft eine operative Entscheidung (Ereignis speichern oder nicht), aber die Validierung des Modells, die Entscheidung über die Implementierung und die Interpretation der Ergebnisse bleiben beim Experten. Derselbe Ansatz wird bei KI-Systemen für Cashcrown-Kunden angewendet: Kein Klassifikationsmodell geht ohne genehmigten Golden-Set und definierte Eskalationsschwellen an den Menschen in Produktion. Der Unterschied in der Skala ist enorm, aber die Aufsichtsarchitektur ist analog.

Es ist wichtig zu betonen, dass Human-Oversight die Datenerfassung nicht automatisch verlangsamt. Triggerentscheidungen fallen in Echtzeit ohne menschliches Zutun. Die Aufsicht betrifft die Validierung der Modelle und die Interpretation der gesammelten Daten, nicht jedes einzelne Ereignis.

▶Bewerte das Design des Triggersystems für einen neuen physikalischen Kanalsandbox · reasoning

Richtung: Anomalieerkennung ohne Label

Ein separater Forschungszweig, der an Bedeutung gewinnt, ist die unüberwachte Anomalieerkennung (unsupervised anomaly detection) als Ergänzung zu klassischen Triggern. Statt Ereignisse in bekannte Klassen einzuordnen, lernt das Modell die Dichteverteilung von Hintergrundereignissen und markiert solche, die von der Norm abweichen. Ein solches System könnte prinzipiell Ereignisse mit unbekannter Signatur speichern, die manuelle Regeln nicht erfasst hätten.

Dieser Ansatz ist jedoch deutlich schwieriger zu validieren. Es gibt keine Labels, daher gibt es kein direktes Maß für die Effektivität. Der Physiker muss bewerten, ob als Anomalien markierte Ereignisse physikalisch interessant sind oder Detektorartefakte darstellen. Bei einem in Echtzeit arbeitenden Trigger und begrenzter Speicherbandbreite könnte ein zu empfindlicher Anomaliedetektor den Massenspeicher mit Rauschen überfluten.

In unseren Implementierungen tritt ein ähnliches Problem in Systemen zur Betrugserkennung und Qualitätsüberwachung in der Produktion auf: Ein Anomalien erkennendes Modell ist erst dann nützlich, wenn es definierte Eskalationsschwellen und einen klaren Pfad zur Überprüfung durch den Menschen gibt. Ohne dies erzeugt es Alert Fatigue, was letztlich zur Abschaltung führt. Der Artikel zum Problem der Blackbox erläutert detailliert, wie Erklärbarkeit in Systemen aufgebaut wird, deren Entscheidungen schwer zu interpretieren sind.

FAQ

Kann KI selbstständig ein neues Teilchen in LHC-Daten entdecken?

Nein, nicht im autonomen Sinne. Das Modell kann eine Gruppe von Ereignissen identifizieren, die statistisch vom erwarteten Hintergrund abweichen, aber die Interpretation dieser Abweichung als Signal neuer Physik erfordert die Analyse durch ein Physikerteam: Überprüfung systematischer Effekte, Verifizierung mit unabhängigen Methoden und letztlich ein bestätigendes Experiment. KI beschleunigt die Vorauswahl von Kandidaten, aber die Entdeckung ist immer das Ergebnis menschlicher Arbeit.

Welche maschinellen Lernmodelle eignen sich für die Implementierung auf FPGA im Trigger?

Die Hauptbeschränkungen sind Inferenzzeit und Hardware-Ressourcen. Auf FPGA praktisch implementierbar sind flache, vollständig verbundene Netze (einige Schichten, einige Dutzend Neuronen pro Schicht) sowie einfache, auf Festkomma-Arithmetik quantisierte Entscheidungsbäume. Die Bibliothek hls4ml ermöglicht die Synthese von Modellen aus PyTorch/Keras direkt in HDL-Code. Tiefe Graph-Modelle laufen auf GPU in der höheren Softwareschicht des Triggers, wo das Zeitfenster größer ist.

Wie beeinflusst Detektordrift die Effektivität des Modells und wie geht man damit um?

Detektordrift bedeutet, dass sich die Verteilungen der Eingangsmerkmale des Modells im Laufe der Zeit ändern. Ein mit Daten vom Anfang der Messsaison trainiertes Modell verliert an Effektivität, wenn die Luminosität steigt oder sich die Detektorgeometrie ändert. Der Standardansatz besteht in der Echtzeitüberwachung der Merkmalsverteilungen (Data Quality Monitoring), regelmäßigem Retraining mit den neuesten Daten und der Aufrechterhaltung von Modellversionen, die streng einem bestimmten Zeitraum der Datenerfassung zugeordnet sind.

Unterliegen KI-Systeme im Trigger dem AI Act?

Direkte wissenschaftliche Anwendungen am CERN unterliegen wahrscheinlich nicht dem AI Act im Bereich hohen Risikos, da sie keine direkten Entscheidungen über Menschen beeinflussen (Kategorien aus Anhang III). Jede Organisation, die KI-Systeme implementiert, die regulatorische Entscheidungen unterstützen oder die Sicherheit beeinflussen, sollte jedoch eine Risikoklassifizierungsbewertung durchführen. Für kommerzielle Unternehmen, die KI in ähnlichen Domänen (Industrie, Medizin) implementieren, kann die Antwort anders ausfallen, siehe Pflichten von Unternehmen 2026.

Worin unterscheidet sich das Problem der Ereignisfilterung von einem typischen geschäftlichen Klassifikator?

Die Hauptunterschiede sind: der Durchsatz (Ereignisse im Mikrosekundentakt, nicht pro Sekunde), die Unumkehrbarkeit (verworfene Ereignisse sind für immer verloren), volle Kontrolle über Trainingsdaten (Simulationen) bei gleichzeitiger Unsicherheit über die Verteilung neuer Physik, und schließlich ein strenges Validierungsverfahren, bevor das Modell in Produktion geht. In geschäftlichen Anwendungen hat man selten mit unumkehrbaren Entscheidungen in diesem Tempo zu tun, aber die Aufsichtsarchitektur über das Modell sollte analog sorgfältig sein. Mehr zu den Analogien in der Rolle des Menschen im Loop.

Die Teilchenphysik ist ein Bereich, in dem KI als Assistent des Forschers einen echten Mehrwert bietet: Sie verarbeitet Daten in einem Tempo, das menschliche Fähigkeiten übersteigt, und erkennt Muster in hochdimensionalen Räumen. Aber die Entscheidung, ob eine Anomalie eine Entdeckung oder ein Artefakt ist, bleibt beim Experten. Dieselbe Aufgabenverteilung gilt in jedem vertrauenswürdigen KI-System. Mehr dazu, wie KI die Rolle des Wissenschaftlers verändert, ohne sein Urteilsvermögen zu ersetzen, im Artikel Wissenschaftler mit KI besser als Wissenschaftler ohne KI. Wenn dich interessiert, wie ähnliche Klassifikationssysteme mit Blick auf Verantwortung und Transparenz aufgebaut werden, lies auch LLM als Hypothesengenerator.

Verwandte FallstudiedowodyIO — Akten zu prüfbarem Beweismaterial