Eine Anwaltskanzlei erhält den Auftrag, ein Vertragspaket im Rahmen einer M&A-Transaktion zu prüfen. Fünf Personen durchsuchen drei Tage lang 400 Dokumente. Sie suchen nach Klauseln zu Wettbewerbsverboten, Kündigungsfristen, Change-of-Control-Klauseln und Freistellungsklauseln. Der Großteil der Zeit entfällt nicht auf das Denken, sondern auf das Lesen und Suchen.
Das ist die Art von Arbeit, die KI schnell und wiederholbar erledigt. Sie ersetzt den Anwalt nicht bei Verhandlungen und bewertet nicht das geschäftliche Risiko der Transaktion. Aber sie kann die drei Tage Dokumentenprüfung auf wenige Stunden komprimieren und den Spezialisten Zeit für das lassen, was wirklich ihr Fachwissen erfordert.
Wie der Dokumentenanalyse-Pipeline funktioniert
#Die Dokumentenanalyse besteht aus mehreren sequenziell arbeitenden Schichten. Jede hat unterschiedliche technische Anforderungen und andere Punkte, an denen sie scheitern kann.
Schicht 1: Ingestion und OCR. Dokumente kommen als PDF, DOCX, XLSX, Scans und manchmal als Handyfotos. OCR wandelt Scans und Fotos in Text um. Für digitale Dokumente (PDF mit Text) ist dieser Schritt trivial. Bei Scans mit geringer Qualität ist dies einer der Hauptrisikopunkte: Eine falsch gelesene Ziffer in einem Paragraphen über Vertragsstrafen hat Konsequenzen.
Schicht 2: Chunking und Indizierung. Der Text wird in Fragmente (Chunks) unterteilt und durch ein Modell wie BGE-M3 in Embeddings umgewandelt. Die Fragmente gelangen in eine Vektordatenbank. Entscheidend ist: Wie groß sind die Chunks und ob sie den Kontext von Absatz, Kapitel und Dokument bewahren. Zu kleine Chunks verlieren den Kontext; zu große verringern die Präzision der Suche.
Schicht 3: Suche und Reranking. Die Benutzeranfrage (z. B. „Finde alle Klauseln zum Kontrollwechsel“) wird in ein Embedding umgewandelt und mit den Fragmenten in der Datenbank verglichen. Hybrid Search kombiniert Vektorsuche mit Volltextsuche, was einen höheren Recall für präzise juristische Begriffe liefert. Reranking sortiert die Ergebnisse nach Relevanz, bevor sie an das Modell weitergegeben werden.
Schicht 4: Generierung von Antworten mit Zitaten. Das Modell generiert Antworten ausschließlich auf Basis der gefundenen Fragmente, immer mit Dokumentennummer, Seitenzahl und Absatz. Eine Antwort ohne Zitat ist ein Warnsignal: Das Modell könnte halluzinieren, statt sich auf den tatsächlichen Inhalt zu beziehen.
Schicht 5: Structured Output. Für die Datenextraktion (Tabellen aus Verträgen, KPIs aus Berichten) gibt das Modell Structured Output im JSON-Format zurück, bereit für den Import. Die Schema-Validierung erfolgt vor der Weitergabe der Daten.
Vertragsprüfung: Was KI erkennt, was nicht
#Die Vertragsprüfung ist einer der am besten geeigneten Anwendungsfälle für KI in der Dokumentenanalyse. Verträge haben eine vorhersehbare Struktur, wiederholbare Klauseln und definierte Begriffe. Genau diese Bedingungen, unter denen semantische Modelle am besten funktionieren.
Was KI effektiv erkennt:
- Klauseln mit konkretem Umfang: Wettbewerbsverbote, Vertragsstrafen, Kündigungsfristen, Gewährleistungsbedingungen, Vertraulichkeitsklauseln. Die semantische Suche findet Klauseln, selbst wenn sie andere Formulierungen als die Anfrage verwenden.
- Unstimmigkeiten zwischen Dokumenten: Dieselbe Vertragspartei hat unterschiedliche Kontaktdaten an zwei Stellen, die Zahlungsfrist in der Präambel stimmt nicht mit dem Paragrapheninhalt überein. KI vergleicht Fragmente aus verschiedenen Stellen des Dokuments oder aus einem Dokumentensatz.
- Fehlende Elemente: Ein Muster für einen vollständigen Vertrag dieses Typs enthält 12 erforderliche Abschnitte. Das System markiert Dokumente, denen ein oder mehrere Abschnitte fehlen.
- Standardklauseln vs. nicht standardisierte Klauseln: Wenn Sie eine Datenbank mit eigenen Vertragsmustern haben, vergleicht das System die Klausel aus dem Dokument mit dem Muster und meldet Abweichungen und deren Ausmaß.
Was KI nicht ersetzt:
- Die Bewertung des rechtlichen Risikos im Kontext der Transaktion und Jurisdiktion. Dies erfordert Wissen über Recht, Präzedenzfälle und die Besonderheiten der Parteien.
- Verhandlungen und Beratung. KI kennt nicht die Absichten der Parteien, die Historie der Beziehungen oder die geschäftlichen Prioritäten des Kunden.
- Die Interpretation strittiger Klauseln. Wenn die Bedeutung von der Auslegung abhängt, braucht es einen Anwalt, kein Modell.
Guardrails sollten Antworten blockieren, bei denen das Modell nicht ausreichend sichere Grundlagen im Dokumenteninhalt hat und stattdessen allgemeines juristisches Wissen als Antwort generiert.
Datenextraktion aus Finanzberichten
#Finanzberichte sind der zweite Hauptanwendungsfall. Ein Analyst prüft die Quartalsberichte von 15 Portfolio-Unternehmen. Aus jedem extrahiert er dieselben 20 Kennzahlen: Umsatz, EBITDA, Nettoverschuldung, Capex, Beschäftigung. Manuell dauert das bei jedem Berichtzyklus mehrere Stunden.
KI verkürzt diesen Prozess auf die Validierung statt auf die Extraktion:
- Das System liest das Dokument (PDF des Berichts, XLSX, CSV).
- Es identifiziert Tabellen und narrative Abschnitte, die die Kennzahlen enthalten.
- Es mappt die Kennzahlen auf ein standardisiertes Schema und gibt JSON mit Werten, Einheiten und Seitenzahl zurück.
- Der Analyst überprüft die Positionen, die das System mit geringer Sicherheit markiert hat oder bei denen der Wert um mehr als einen definierten Schwellenwert vom vorherigen Zeitraum abweicht.
Wichtige Probleme bei der Extraktion von Berichten:
- Unterschiedliche Formate zwischen Emittenten. EBITDA ist in einem Bericht eine Zeile in einer Tabelle, in einem anderen nur im narrativen Abschnitt. Das System muss beide Muster unterstützen.
- Buchhalterische Umrechnungen. Der Bericht zeigt „adjusted EBITDA“. Um EBITDA aus den Rohdaten zu berechnen, müssen mehrere Schritte angewendet werden. Dies erfordert entweder vordefinierte Extraktionsregeln oder ein Modell mit nachvollziehbarer Argumentationskette.
- Währungen und Einheiten. Ein Bericht gibt Beträge in Tausend PLN an, ein anderer in Millionen EUR. Die Normalisierung muss transparent und auditierbar sein.
Für große Volumina (Dutzende Unternehmen pro Berichtzyklus) ist die Amortisation schnell. Für einmalige Analysen ermöglicht ein Pilot mit kleinem Umfang die Einschätzung, wie viele Stunden die Extraktion bei Ihren konkreten Dokumentenformaten tatsächlich einspart.
Due Diligence: KI als erster Filter
#Rechtlich-finanzielle Due Diligence ist die Analyse von oft mehreren hundert Dokumenten in einem kurzen Zeitfenster. Das klassische Problem: Viel zu lesen, wenig Zeit, hohes Fehlerrisiko.
KI führt keine Due Diligence anstelle eines Anwalts oder Beraters durch. Sie dient als erster Filter, der:
- Dokumente nach Kategorien klassifiziert (Verträge, Lizenzen, Verwaltungsentscheidungen, Unternehmensdokumente) und sie den richtigen Spezialisten zuweist.
- Klauseln mit hohem Risiko markiert in Kategorien: Kontrollwechsel, Vertragsstrafen über einem Schwellenwert, nicht marktübliche Klauseln, Off-Balance-Sheet-Verpflichtungen.
- Eine Liste von Fragen an den Verkäufer generiert basierend auf fehlenden Dokumenten oder festgestellten Unstimmigkeiten.
- Thematische Zusammenfassungen mit Zitaten erstellt: „Verträge mit Change-of-Control-Klausel: 14 Dokumente, Liste unten mit Seitenzahlen“.
Der Unterschied zwischen KI als Filter und KI als Analyse: Ein Filter organisiert und zeigt auf, was Aufmerksamkeit erfordert. Eine Analyse ist die Bewertung der Bedeutung und Empfehlung. Ersteres macht KI gut. Letzteres erfordert den Menschen.
In der Praxis beginnt ein Due-Diligence-Pilot meist mit einer Dokumentenkategorie (z. B. nur Verträge mit Hauptlieferanten) und einer Art von Frage (z. B. Kündigungsklauseln). Der Umfang wird nach der Überprüfung der Ergebnisqualität in diesem engen Fall erweitert.
Vergleich der architektonischen Ansätze
#Die Wahl der Architektur hängt von der Sensibilität der Daten, dem Dokumentenvolumen und den Anforderungen an die Präzision ab.
| Architektur | Anwendungsfall | Datensensibilität | Präzision | Infrastrukturkosten |
|---|---|---|---|---|
| RAG auf Cloud-Modell | öffentliche Berichte, Dokumente ohne NDA | niedrig | hoch | niedrig (pay-per-use) |
| Lokales RAG (self-hosted LLM) | Verträge, Transaktionsdokumente, NDA | hoch | hoch | höher (eigener Server) |
| Hybrid RAG + Volltext | große Dokumentensätze mit Fachterminologie | beliebig | höchste | mittel-hoch |
| Pipeline OCR + structured output | tabellarische Extraktion aus Berichten | beliebig | abhängig von OCR-Qualität | niedrig-mittel |
| Agent mit Tool-Use | komplexe DD mit Vergleich zwischen Dokumenten | hoch | erfordert Überprüfung | hoch |
Self-Hosting des Modells ist gerechtfertigt, wenn Dokumente unter NDA, Berufsgeheimnis oder personenbezogene Daten der Transaktionsparteien enthalten. PII-Daten sollten vor dem Versand an externe APIs maskiert werden, selbst wenn der Anbieter keine Speicherung zusichert. Mehr zu diesem Muster behandelt der Artikel Anonymisierung von PII vor KI.
RODO, AI Act und Datensensibilität in der Dokumentenanalyse
#Dokumente in rechtlichen und transaktionalen Prozessen enthalten oft personenbezogene Daten: Namen der Parteien, PESEL-Nummern, Kontaktdaten, Beschäftigungsinformationen. RODO legt die Pflicht zur Datenminimierung und Zweckbindung der Verarbeitung fest.
Zwei technische Anforderungen, die vor dem Start des Pipelines erfüllt sein müssen:
PII-Maskierung vor der Indizierung. Personenbezogene Daten werden in der Ingestionsschicht identifiziert und maskiert oder tokenisiert, bevor die Fragmente in die Vektordatenbank gelangen. Das Modell sieht „PARTEI_A“ statt eines konkreten Namens. Die Zuordnung von Tokens zu den tatsächlichen Daten wird separat, außerhalb des Index, gespeichert.
Isolierung pro Projekt oder pro Kunde. Jeder Fall (Transaktion, Kunde, Projekt) hat einen eigenen, separaten Index. Eine Abfrage zu einem Projekt greift niemals auf Dokumente eines anderen zu. Dies ist eine architektonische Anforderung, keine konfigurative.
Für Due-Diligence-Prozesse mit erhöhtem Risiko (Übernahmen in regulierten Sektoren, sensible Daten) ist vor der Implementierung eine DPIA erforderlich. Die systematische Analyse von Dokumenten durch KI kann als „Verarbeitung in großem Umfang“ im Sinne der RODO gelten. Eine detaillierte Übersicht der regulatorischen Pflichten enthält der Artikel AI Act und RODO 2026.
Der AI Act klassifiziert Systeme zur Dokumentenanalyse als Systeme mit geringem oder begrenztem Risiko, wenn Entscheidungen auf Basis von KI-Hinweisen durch Menschen getroffen werden. Wenn das System Empfehlungen generiert, die direkt finanzielle oder rechtliche Entscheidungen ohne menschliche Überprüfung beeinflussen, kann sich die Klassifizierung ändern.
Ergebnisqualität: Was messen und wie verifizieren
#Ein Dokumentenanalysesystem, das im Pilotbetrieb funktioniert, zeigt oft Probleme beim ersten Kontakt mit realen Kundendokumenten. Drei Metriken, die Auskunft darüber geben, ob das System bereit für den produktiven Einsatz ist:
- Recall kritischer Klauseln: Welcher Anteil der Klauseln aus einem zuvor etikettierten Testset das System korrekt identifiziert hat. Ziel: Über 95 % für kritische Klauseln (Strafen, Fristen, Kontrollwechsel). Ein Recall unter 90 % deutet auf ein Problem mit dem Chunking oder einer zu engen semantischen Suche hin.
- Präzision der Zitierung: Welcher Anteil der zitierten Fragmente tatsächlich von der angegebenen Seite und dem Absatz stammt. Falsche Zitierung (das Modell gibt eine Seitenzahl an, aber das Fragment stammt von einer anderen Stelle) ist ein Signal für indirekte Halluzinationen. Ziel: 100 %.
- Eskalationsrate: Welcher Anteil der Anfragen das System zur menschlichen Überprüfung weiterleitet, statt selbst zu antworten. Eine zu niedrige Rate (das System antwortet auf alles) bedeutet fehlende Guardrails. Eine zu hohe Rate (das System eskaliert alles) bedeutet, dass das System keinen Mehrwert liefert.
Qualitätsmonitoring von KI-Agenten behandelt ausführlicher die Methodik zur Messung, Alarmierung und Qualitätsdrift für produktiv eingesetzte KI-Systeme.
Live ausprobieren
#Beschreiben Sie die Art der Dokumente, die Sie analysieren, und was Sie daraus extrahieren möchten. Das Modell zeigt auf, welche architektonischen Schichten für Ihren Fall sinnvoll sind (Playground: PII maskiert, keine Speicherung):
FAQ
#Kann KI Verträge in polnischer Sprache lesen und analysieren?
#Ja, moderne mehrsprachige Modelle kommen mit Polnisch ohne spezielles Fine-Tuning auf Verträgen zurecht. Die semantische Suche funktioniert korrekt für juristische Terminologie auf Polnisch, obwohl die Präzision für sehr spezialisierte Klauseln (z. B. Terminologie aus dem Baurecht oder Transportrecht) höher ist, wenn die Vektordatenbank Dokumente aus derselben Domäne enthält. Semantische Suche und Embeddings behandelt die Auswahl eines Embedding-Modells für die polnische Sprache.
Wie geht KI mit gescannten Dokumenten und Fotos um?
#Moderne OCR-Systeme mit visuellen Modellen verarbeiten Scans und Fotos, aber die Qualität hängt von der Auflösung und Lesbarkeit des Originals ab. Dokumente mit handschriftlichen Anmerkungen, Scans geringer Qualität und beschädigte Papieroriginale verringern die Extraktionssicherheit. Das Muster ist immer gleich: Geringe Sicherheit des OCR-Systems bei einem bestimmten Fragment bedeutet die Weiterleitung dieses Fragments in eine manuelle Warteschlange statt automatischer Extraktion. Die Bewertung der Qualität Ihrer Dokumente hinsichtlich OCR führt das Tool Bereitschaftsbewertung durch.
Sind die Daten aus Verträgen und Due-Diligence-Dokumenten bei der Nutzung von KI sicher?
#Die Sicherheit hängt von der Architektur ab, nicht von der Tatsache, dass KI genutzt wird. Dokumente unter NDA und Berufsgeheimnis sollten lokal verarbeitet (self-hosted Modell) oder vor dem Versand an externe APIs PII-maskiert werden. Jedes Projekt sollte einen isolierten Index in der Vektordatenbank haben, damit Abfragen aus einem Fall keinen Zugriff auf Dokumente eines anderen haben. Jede Operation (was das System gelesen hat, was es vorgeschlagen hat, wer genehmigt hat) muss nachvollziehbar protokolliert werden. Details zu den technischen Anforderungen behandelt der Artikel Sicherheit von KI-Agenten.
Wie lange dauert die Implementierung eines Systems zur Dokumentenanalyse?
#Ein Pilot für eine Dokumentenkategorie und einen Fragetyp dauert in der Regel 3-6 Wochen: eine Woche für Ingestion und Indizierung eines Testsets, eine Woche für die Konfiguration und Kalibrierung von Guardrails, 2-4 Wochen für die Qualitätsprüfung mit echten Nutzern. Eine vollständige Implementierung mit mehreren Dokumentenkategorien, Integration in ERP- oder DMS-Systeme und fortgeschrittenen Extraktionspipelines dauert je nach Umfang 2-4 Monate. Der ROI-Rechner ermöglicht die Schätzung der Amortisationszeit basierend auf dem tatsächlichen Dokumentenvolumen und dem Stundensatz der Spezialisten.
Kann KI mehrere Dokumente miteinander vergleichen?
#Ja, dies ist eines der nützlichsten Muster in der Due Diligence. Ein Agent mit Tool-Use kann mehrere Abfragen sequenziell an die Vektordatenbank stellen und die Ergebnisse vergleichen: „Vertrag A enthält Klausel X, Verträge B und C nicht.“ Komplexe Vergleiche zwischen großen Dokumentensätzen erfordern jedoch eine sorgfältige Pipeline-Gestaltung und klare Guardrails, die Antworten ohne Grundlage im Text blockieren. KI-Agent vs. Chatbot erläutert den Unterschied zwischen einem einfachen Assistenten und einem Agenten, der zu mehrstufigem Schlussfolgern über Dokumente fähig ist.