Im Jahr 2016 sagte Geoffrey Hinton, dass Radiologen aufhören sollten, sich ausbilden zu lassen, weil KI sie innerhalb von fünf Jahren ersetzen würde. Zehn Jahre sind vergangen. Radiologen arbeiten weiterhin. KI ist jedoch zu ihrem effektivsten diagnostischen Werkzeug geworden.
Die These „KI wird den Arzt ersetzen“ ist medial interessant, aber wissenschaftlich falsch. Die These „KI ist nur ein Werkzeug und wird die Medizin nicht verändern“ ist ebenso falsch. Die Wahrheit liegt in den Mechanismen: wo KI stark ist, wo sie schwach ist, was das für die Systemgestaltung bedeutet und welche Pflichten das Recht auferlegt.
Was KI in der Medizin wirklich kann
#Am besten dokumentiert sind die Ergebnisse bei perzeptiven Aufgaben mit großen Datensätzen. In der Dermatologie klassifizieren konvolutionelle Modelle Hautveränderungen mit einer Sensitivität, die mit der eines erfahrenen Dermatologen vergleichbar ist. In der Augenheilkunde erkennen Systeme zur Analyse des Augenhintergrunds diabetische Retinopathie mit einer Präzision, bei der frühere Spezialisten monatlich Hunderte von Patienten einbestellen mussten. In der Radiologie reduziert KI die Anzahl übersehener Lungenveränderungen um 20-40 % unter hoher Arbeitsbelastung.
Diese Ergebnisse sind real und beachtenswert. Sie haben jedoch einen gemeinsamen Nenner: Sie betreffen gut definierte, wiederholbare Aufgaben mit einer großen Trainingsdatenstichprobe und klar definierten Labels. Außerhalb dieses Bereichs sind sie nicht mehr zuverlässig.
Die Prädiktion des Sepsisrisikos aus elektronischen Patientenakten, die Früherkennung von Verschlechterungen auf der Intensivstation, Triage anhand von EKG-Bildern — das sind weitere dokumentierte Anwendungen. Ihnen allen ist gemeinsam: KI verarbeitet Signale besser und schneller als der Mensch unter Druck, in einem engen Aufgabenfenster. Sie ersetzt den Arzt nicht. Sie liefert ihm ein besseres Signal, früher.
Wo KI versagt und warum das wichtig ist
#Zwei Schwachstellen sind strukturell, nicht zufällig.
Die erste ist das Black-Box-Problem. Ein neuronales Netz, das eine Hautveränderung klassifiziert, kann nicht erklären, warum es das tut. Es kann sich auf Artefakte trainieren: Hintergrundfarbe, Wasserzeichen auf dem Bild, Anordnung der Augenlider im Datensatz. Studien zeigen, dass Modelle, die als „besser als Dermatologen“ eingestuft wurden, diesen Vorsprung verloren, wenn die Testdaten mit einer anderen Kamera oder in einem anderen Zentrum erhoben wurden. Das ist das Problem der Halluzinationen und des Drifts in einem Bereich mit Null-Fehler-Toleranz.
Die zweite ist das Problem des klinischen Kontexts. Ein Patient mit Atemnot, der in einem Bergwerk arbeitet, ist ein anderer Fall als ein Nichtraucher mit Atemnot am Schreibtisch — selbst wenn das Röntgenbild identisch aussieht. KI verarbeitet Eingabedaten. Der Arzt verarbeitet den Patienten in seinem Leben. Das ist keine Barriere, die durch Skalierung des Modells überwunden werden kann.
Dazu kommen systematische Verzerrungen (Bias). Wenn Trainingsdaten hauptsächlich aus einer demografischen Gruppe stammen, lernt das Modell diese Gruppe. Eine im NEJM 2024 veröffentlichte Studie zeigte, dass Modelle zur Prädiktion des kardiovaskulären Risikos für Frauen und Patienten aus Subsahara-Afrika systematisch ungenau waren. Die Implementierung eines solchen Modells ohne Audit ist ein medizinisches Ereignis, nicht nur ein technisches.
AI Act: Medizin als Hochrisikobereich
#Das ist keine Designoption. Seit 2025 klassifiziert der AI Act KI-Systeme in der Medizin als Hochrisikosysteme (Anhang III) — was konkrete technische und dokumentarische Pflichten auferlegt, bevor das System zum Patienten gelangt.
Wesentliche Anforderungen für Hochrisikosysteme in der Medizin:
| Anforderung | Was das in der Praxis bedeutet |
|---|---|
| Menschliche Aufsicht (human-oversight) | Der Arzt muss die Möglichkeit haben, die Empfehlung der KI zu hinterfragen oder zu ignorieren |
| Transparenz und Erklärbarkeit | Die Entscheidung der KI muss in einem Maße erklärbar sein, das eine Überprüfung ermöglicht |
| Risikomanagement | Dokumentierte Risikoanalyse vor der Implementierung und nach jeder wesentlichen Änderung |
| Protokollierung | Jede Entscheidung unter Beteiligung von KI wird protokolliert — wer, wann, was hat das Modell vorgeschlagen, was hat der Arzt entschieden |
| Trainingsdaten | Dokumentation der Datenquellen, Repräsentativität und Validierungsverfahren |
| Folgenabschätzung (DPIA) | Erforderlich, wenn das System Gesundheitsdaten verarbeitet oder Entscheidungen über Menschen trifft |
Systeme, die diese Anforderungen nicht erfüllen, dürfen in der EU nicht legal implementiert werden. Für Anbieter medizinischer Software bedeutet dies, dass die Compliance-Architektur von der ersten Codezeile an entworfen werden muss — nicht erst vor der Zertifizierung. Dieses Prinzip ist identisch mit dem, das wir bei jeder Implementierung für Unternehmen anwenden: Compliance ist Design, kein Patch.
Explainability: Vom Modetrend zur Pflicht
#Jahrelang war Explainability (Erklärbarkeit von KI) ein akademisches Thema. Der AI Act hat dies zu einer rechtlichen Anforderung für Hochrisikosysteme gemacht. In der Medizin bedeutet das eine konkrete Architektur.
SHAP und Attention Maps sind die beliebtesten Post-hoc-Methoden: Das Modell zeigt, welche Pixel oder Merkmale die Entscheidung beeinflusst haben. Diagnostisch nützlich, aber begrenzt — sie zeigen Korrelation, keine Kausalität.
Inherent erklärbare Modelle (Entscheidungsbäume, logistische Regression mit Merkmalsselektion) sind einfacher zu auditieren, aber schwächer in der Wahrnehmung. In der bildgebenden Diagnostik ersetzen sie keine konvolutionellen Netze.
Retrieval-Augmented Generation (RAG) führt ein anderes Modell der Erklärbarkeit ein: Das System generiert keine Antwort aus Modellgewichten, sondern durchsucht eine verifizierte Wissensdatenbank und zitiert Quellen. Ein auf RAG basierender klinischer Assistent kann zeigen, aus welchen ESC- oder AHA-Leitlinien eine Empfehlung stammt — ein Erklärbarkeitsniveau, das für reine LLM nicht verfügbar ist. Eine ähnliche Architektur beschreiben wir bei einem firmeneigenen Wissensassistenten.
Beim Design von Systemen für regulierte Bereiche gehen wir von folgendem Prinzip aus: Wenn man die Entscheidung des Modells nicht in der Fachsprache erklären kann, sollte das Modell diese Entscheidung nicht eigenständig treffen.
Human-in-the-loop: Mechanismus, keine Philosophie
#„Menschliche Aufsicht“ klingt nach einem ethischen Prinzip. In der Systemtechnik ist es ein konkretes Muster: Human-Gate — ein Entscheidungspunkt, durch den eine Aktion nicht ohne menschliche Bestätigung gehen kann.
In der Medizin kann ein Natural Language Processing-Assistent eine Differentialdiagnose mit Wahrscheinlichkeiten vorschlagen. Der Arzt entscheidet, welche Untersuchungen angeordnet werden. Die KI schreibt keine Anordnung selbst — das ist das Gate. In OIOM-Alarmierungssystemen kann die KI einen Sepsis-Score-Alarm generieren. Die Pflegekraft bestätigt oder lehnt ab, bevor das Protokoll startet — das ist das Gate. In der Radiologie markiert die KI Bereiche zur Betrachtung. Der Radiologe verifiziert vor dem Bericht — das ist das Gate.
Dieses Muster (Modell empfiehlt, Mensch bestätigt irreversible Aktionen) ist dasselbe, das wir bei KI-Agenten in Unternehmen anwenden: Jede Aktion mit externen Konsequenzen erfordert eine Bestätigung vor der Ausführung. In der Medizin sind die externen Konsequenzen die Gesundheit des Patienten — die Gate-Anforderung ist absolut.
Daten, Datenschutz und RODO in klinischen Systemen
#Die Medizin ist einer der schwierigsten Bereiche für die KI-Datenverarbeitung — Gesundheitsdaten sind sensible Daten im Sinne der RODO, mit verschärftem Schutzregime und der Anforderung einer Rechtsgrundlage nach Art. 9.
Einige praktische Prinzipien, die bei jeder konformen Implementierung gelten:
Datenminimierung. Das Modell erhält nur das, was für die Aufgabe notwendig ist. Identifizierende Daten werden vor der Verarbeitung durch das Modell maskiert oder pseudonymisiert — wir beschreiben dies detailliert bei der Anonymisierung von PII.
Datenverarbeitungsstandort. Gesundheitsdaten können die Verarbeitung ausschließlich innerhalb der EU oder in Polen erfordern. Self-Hosting von LLM oder Verträge mit Anbietern mit EU-Datenresidenz beseitigen dieses Problem strukturell.
Aufbewahrung und Recht auf Löschung. Protokolle von KI-Entscheidungen müssen für die Rechenschaftspflicht aufbewahrt werden, aber nicht länger als für den Zweck erforderlich. Patienten haben das Recht, die Löschung von Daten und Einsicht in automatisierte Entscheidungen zu verlangen — die Architektur muss dies technisch unterstützen, nicht nur prozedural.
DPIA ist erforderlich bei der Verarbeitung von Gesundheitsdaten in großem Umfang oder bei automatisierten Entscheidungen über Patienten. Es handelt sich nicht um ein einmaliges Dokument: Es muss bei jeder wesentlichen Systemänderung aktualisiert werden.
Live ausprobieren
#Beschreiben Sie ein Szenario für die Implementierung von KI in einem medizinischen oder regulierten Kontext — das Modell hilft bei der vorläufigen Einschätzung, welche Anforderungen des AI Act und der RODO gelten könnten, als Ausgangspunkt, keine Rechtsberatung (Playground: PII maskiert, keine Speicherung):
FAQ
#Ist KI in der Medizin ein Hochrisikosystem gemäß AI Act?
#In der überwiegenden Mehrheit der Fälle ja. Der AI Act (Anhang III) klassifiziert KI-Systeme, die in der Verwaltung und Bedienung von Medizinprodukten eingesetzt werden, sowie Systeme, die klinische Entscheidungen über Patienten unterstützen, als Hochrisikosysteme. Dies bedeutet die Pflicht zur technischen Dokumentation, zum Risikomanagement, zur Protokollierung von Entscheidungen und zur menschlichen Aufsicht vor der Implementierung. Die Klassifizierung eines bestimmten Systems sollte immer mit einem Juristen bestätigt werden.
Kann sich KI bei der Diagnose irren und wer haftet dafür?
#Ja, KI kann sich irren und tut dies auch. Die Verantwortung für die klinische Entscheidung liegt beim Arzt, der diese Entscheidung getroffen hat. Der AI Act und das Medizinrecht übertragen die Verantwortung nicht auf den Anbieter des Modells, wenn der Arzt die Möglichkeit hatte, die Empfehlung zu hinterfragen. Daher ist das Human-Gate-Muster entscheidend: Der Arzt muss ein Werkzeug zur Überprüfung haben und die Möglichkeit, den Vorschlag des Systems abzulehnen.
Wie funktioniert Explainability von KI in der klinischen Praxis?
#Das hängt von der Architektur ab. RAG-basierte Systeme zitieren Quellen (Leitlinien, Publikationen) für jede Empfehlung. Perzeptive Systeme (Bild, EKG) verwenden Attention Maps oder SHAP, um zu zeigen, welche Merkmale der Daten das Ergebnis beeinflusst haben. Das ist keine vollständige Kausalität, aber es gibt dem Arzt einen Ansatzpunkt zur Überprüfung. Systeme ohne jegliche Form der Erklärbarkeit erfüllen nicht die Anforderungen des AI Act für Hochrisikosysteme.
Dürfen Patientendaten das Krankenhaus oder das Land verlassen?
#Ja, wenn die Anforderungen der RODO erfüllt sind: eine geeignete Rechtsgrundlage nach Art. 9, ein Auftragsverarbeitungsvertrag mit dem Anbieter, Standardvertragsklauseln oder ein Angemessenheitsbeschluss für Datenübermittlungen außerhalb der EU. In der Praxis wählen viele Krankenhäuser und Einrichtungen Self-Hosting oder Anbieter mit Datenresidenz in PL/EU, um dieses Problem strukturell zu vermeiden. Die Verarbeitung von PII muss durch eine DPIA abgedeckt sein, wenn sie in großem Umfang oder bei automatisierten Entscheidungen erfolgt.
Wird KI Ärzte in absehbarer Zukunft ersetzen?
#Nein, nicht in der Rolle, die sie heute innehaben. KI übernimmt und wird enge, repetitive perzeptive Aufgaben übernehmen — Screening, Markierung von Anomalien, Risikoprädiktion aus strukturierten Daten. Sie entlastet den Arzt von dem, was KI nicht kann: klinischer Kontext, Beziehung, Bewertung unter Unsicherheit, Verantwortung. Die Veränderung ist real und groß, aber die Richtung ist Spezialisierung und Augmentation, nicht Substitution.