KI zur Zusammenfassung langer Dokumente: Strategien und Gre…

KI zur Zusammenfassung langer Dokumente: Strategien und Grenzen

Die Rechtsabteilung erhält einen 180-seitigen Joint-Venture-Vertrag zur Prüfung vor der Unterzeichnung. Es gibt keine Woche Zeit. Es bleibt ein Tag. Die Frage kommt schnell: Kann KI das zusammenfassen?

Die Antwort lautet: ja, mit einem wichtigen Vorbehalt. Das Modell verkürzt die Orientierungszeit im Dokument von Stunden auf Minuten. Aber die Zusammenfassung ersetzt nicht die Lektüre bei Klauseln, von denen Haftung, Schadensersatz und Kündigungsbedingungen abhängen. Das sind zwei verschiedene Anwendungsfälle, die nicht verwechselt werden sollten.

Problem: Dokument länger als das Kontextfenster

Sprachmodelle haben ein begrenztes Kontextfenster. Selbst Modelle mit Fenstern von 128.000 Token haben eine Grenze, und die Verarbeitungsgenauigkeit nimmt ab, wenn der Kontext vollständig gefüllt ist. Ein 180-seitiger Vertrag, ein Protokoll einer 8-stündigen Vorstandssitzung oder ein 300-seitiger Jahresbericht eines Unternehmens sind Dokumente, die diese Grenze oft überschreiten oder sich ihr so weit nähern, dass die Qualität der Zusammenfassung deutlich abnimmt.

Zwei architektonische Lösungen für dieses Problem haben unterschiedliche Eigenschaften und unterschiedliche Ausfallmodi.

Map-Reduce (hierarchische Zusammenfassung): Das Dokument wird in Fragmente unterteilt, jedes Fragment wird separat zusammengefasst (Map-Phase), und anschließend werden die Zusammenfassungen zu einem Ganzen synthetisiert (Reduce-Phase). Es können mehrstufige Hierarchien aufgebaut werden: zuerst Absätze zu Abschnitten, dann Abschnitte zu Kapiteln, dann Kapitel zum Ganzen. Der Vorteil ist die Skalierbarkeit: Das Dokument kann beliebig lang sein. Der Nachteil ist, dass Abhängigkeiten zwischen den Fragmenten verloren gehen können. Eine Klausel in Kapitel 3 definiert einen Begriff, der in Kapitel 12 verwendet wird; wenn das Fragment von Kapitel 12 ohne Wissen darüber zusammengefasst wird, wie der Begriff in Kapitel 3 definiert ist, rät das Modell entweder oder übersieht es.

RAG mit Zitaten: Statt das gesamte Dokument sequenziell zusammenzufassen, beantwortet das System konkrete Fragen durch semantische Suche. Die Anfrage „Was sind die Kündigungsbedingungen?“ ruft die relevantesten Fragmente ab, die das Modell mit der Pflicht zur Angabe der Seitenzahl und des Absatzes synthetisiert. Der Vorteil ist ein höheres Vertrauensniveau: Jede Antwort hat eine Quelle. Der Nachteil ist die Notwendigkeit präziser Fragen und das Fehlen einer ganzheitlichen Übersicht ohne Iteration. Der Artikel KI zur Dokumentenanalyse beschreibt diese Pipeline im Detail.

Strategien für strukturierte Zusammenfassungen

Die nützlichsten Zusammenfassungen im Unternehmenskontext sind keine freien narrativen Texte, sondern Strukturen, die vom Modell nach einem Schema ausgefüllt werden. Drei Formate, die sich in der Praxis bewährt haben:

Schlüsselpunkte mit Lokalisierung. Eine Liste von 5-15 Festlegungen mit obligatorischer Angabe der Seite und des Abschnitts. Das Format zwingt das Modell, jeden Punkt im Text zu verankern, und erleichtert die Überprüfung durch den Menschen: Der Leser prüft nicht das Ganze, sondern konkrete Stellen.

Risikozusammenfassung. Eine Liste von Positionen mit Risikotyp, Beschreibung und Fundstelle im Dokument. Nützlich für Juristen und Due-Diligence-Analysten, die schnell zu Klauseln gelangen wollen, die Aufmerksamkeit erfordern. Das Modell füllt das Schema durch structured output aus, was die Integration in Risikomanagementsysteme erleichtert.

Aktionsliste. Aus Protokollen von Sitzungen, Projektbriefings und Auditberichten kann das Modell auszuführende Punkte mit zugewiesener Person und Frist extrahieren. Voraussetzung: Das Protokoll muss diese Elemente enthalten. Wenn sie nicht explizit genannt sind, wird das Modell sie ableiten, was das Fehlerrisiko erhöht.

Alle drei Formate können vor der Weitergabe an den nächsten Prozessschritt mit einem JSON-Schema validiert werden. Der Artikel Validierung von LLM-Ausgaben erläutert, wie diese Schicht gestaltet wird.

Vergleich der Strategien: Wann was einsetzen

Strategie	Am besten für	Risiko	Erforderliche Überprüfung
Map-Reduce	Lange Berichte, Protokolle, narrative Dokumente	Verlust von Abhängigkeiten zwischen Abschnitten	Stichprobenartig, kritische Abschnitte
RAG mit Fragen	Verträge, Due Diligence, Q&A zum Dokument	Auslassung von Klauseln außerhalb der Anfrage	Bestätigung fehlender Treffer
Structured output	Tabellarische Extraktion, Checkliste, KPI	Halluzination numerischer Werte	Jede Zahl und jedes Datum
Hierarchisch (3 Ebenen)	Sehr lange Dokumente (300+ Seiten)	Degradation der Kohärenz an der Spitze der Hierarchie	Menschliche Gesamtsynthese

Die Wahl der Strategie hängt vom Zweck der Zusammenfassung, der Sensibilität des Dokuments und der verfügbaren Zeit für die menschliche Überprüfung ab. Für Dokumente mit hoher rechtlicher oder finanzieller Bedeutung gibt es keine Strategie, die von der Überprüfung entbindet.

Ausfallmodi, die man kennen muss

Wir bei Cashcrown beobachten zwei Ausfallmodi, die bei der Zusammenfassung langer Dokumente überproportional häufig auftreten.

Ausgelassene Klausel. Bei Map-Reduce kann eine Klausel ausgelassen werden, wenn das Fragment, in dem sie sich befindet, nicht genügend Kontext enthielt, damit das Modell sie als relevant erachtet. Dies geschieht bei Klauseln, die in scheinbar standardmäßigen Abschnitten eingebettet sind (z. B. eine Rechtsänderungsklausel im Abschnitt „Schlussbestimmungen“). Keine der derzeit verfügbaren Architekturen bietet eine 100%ige Recall-Garantie für kritische Klauseln ohne einen dedizierten Golden-Set-Test.

Halluzination eines im Quelltext nicht vorhandenen Fakts. Das Modell füllt eine Lücke mit einem wahrscheinlichen Text. Bei der Zusammenfassung eines Vertrags kann es einen fehlenden Zahlungstermin mit einem für diese Art von Verträgen typischen Wert „ergänzen“. Bei der Zusammenfassung eines Berichts kann es kumulierte KPIs angeben, die der Bericht nicht enthielt, die aber sinnvoll klingen würden. Die Angabe der Quelle bei jedem Punkt der Zusammenfassung ist die wirksamste Abwehr: Ein Punkt ohne Quellenangabe ist ein Signal, dass das Modell geraten haben könnte.

Der Artikel Wie man KI-Halluzinationen begrenzt beschreibt die Verteidigungsschichten im Detail. Der entscheidende Schluss: Halluzinationen lassen sich nicht durch ein besseres Modell auf null reduzieren. Eine Architektur mit Zitaten und einem Vertrauensschwellenwert reduziert sie auf ein akzeptables Niveau.

Grenze: Wann die Zusammenfassung nicht ausreicht

Für rechtliche und finanzielle Dokumente gibt es eine harte Grenze, die nicht verschoben werden kann.

Die KI-Zusammenfassung ist ein Navigationswerkzeug: Sie ermöglicht es, schnell zu finden, welche Abschnitte Aufmerksamkeit erfordern, auf welchen Seiten kritische Klauseln stehen und was im Vergleich zum Muster unüblich ist. Sie ist und sollte nicht die endgültige Interpretation des Inhalts sein, auf deren Grundlage Entscheidungen über Unterzeichnung, Akzeptanz von Bedingungen oder Übernahme von Verantwortung getroffen werden.

Human oversight bei rechtlichen und finanziellen Dokumenten bedeutet konkret: Überprüfung kritischer Klauseln durch einen Juristen oder Analysten an der Quelle, nicht anhand der Zusammenfassung. Die Zusammenfassung beschleunigt diesen Prozess, indem sie die Stellen angibt, auf die man achten muss. Sie ersetzt das Hinschauen nicht.

Für Dokumente, die dem Berufsgeheimnis unterliegen oder personenbezogene Daten enthalten, sollte die Architektur Self-Hosting des Modells oder die Maskierung von PII vor der Übermittlung an externe APIs berücksichtigen. Der Artikel Firmen-GPT auf Wissensbasis erläutert Implementierungsvarianten mit unterschiedlichen Risikoprofilen für Daten.

Chunking und Verifizierung: Zwei Bedingungen für eine gute Zusammenfassung

Die Qualität der Zusammenfassung hängt weitgehend davon ab, wie das Dokument vor der Verarbeitung in Fragmente unterteilt wird. Zu kleine Fragmente verlieren den Kontext von Sätzen aus dem vorherigen Absatz. Zu große Fragmente verringern die Präzision und erhöhen die Kosten pro Anfrage.

Einige Regeln, die sich in unseren Implementierungen bewährt haben:

Die Grenzen der Chunks sollten mit den Grenzen von Absätzen oder Abschnitten übereinstimmen, nicht mechanisch alle 512 Token festgelegt werden.
Jeder Chunk sollte Metadaten enthalten: Seitenzahl, Abschnittsüberschrift, Dokumenten-ID. Ohne diese Metadaten ist das Zitieren nicht möglich.
Für Map-Reduce lohnt es sich, einen Overlap von 10-15% zwischen benachbarten Chunks zu verwenden, damit Klauseln, die sich über Seitengrenzen erstrecken, nicht ihren Kontext verlieren.
Für Dokumente mit Tabellen (Finanzberichte, Verträge mit Zahlungsplänen) benötigen Tabellen eine separate Chunking-Strategie: Eine ganze Tabellenzeile als ein Chunk mit Spaltenüberschriften in jedem Fragment.

Die Details der Chunking-Strategie beschreibt der Artikel Chunking von Dokumenten für RAG.

Beschreibe den Dokumenttyp und was du daraus extrahieren möchtest, und das Modell schlägt eine auf euren Fall zugeschnittene Zusammenfassungsstrategie vor (Playground: PII maskiert, keine Speicherung):

▶Wähle die Zusammenfassungsstrategie für dein Dokumentsandbox · reasoning

FAQ

Garantiert Map-Reduce, dass keine Klausel ausgelassen wird?

Nein. Map-Reduce verbessert die Skalierbarkeit, bietet aber keine Garantie für vollständige Abdeckung. Klauseln, die in Abschnitten platziert sind, die das Modell in der Map-Phase als wenig relevant eingestuft hat, können in die Synthese nicht aufgenommen werden. Die einzige Möglichkeit, die Abdeckung empirisch zu messen, ist ein Golden Set: das vorherige Sammeln von annotierten kritischen Klauseln und die Überprüfung, wie viele davon das System korrekt identifiziert. Ein Recall-Ziel von über 95% für kritische Klauseln ist nach Kalibrierung erreichbar, erfordert aber Iterationen mit realen Dokumenten.

Wie erkennt man, ob das Modell die Quelle zitiert oder ein Zitat halluziniert?

In einem gut gestalteten System ist jeder Satz in der Zusammenfassung mit einem Fragment-Identifier (Seitenzahl, Abschnitt, Satz) verknüpft. Die Überprüfung besteht darin, zur angegebenen Stelle zu gehen und zu bestätigen, dass der Text dort tatsächlich existiert. Ein System ohne Zitiermechanismus auf Absatz- oder Satzebene bietet kein Werkzeug zur Überprüfung und eignet sich nicht für rechtliche oder finanzielle Anwendungen. Die Validierungsschicht sollte Antworten mit niedrigem Verankerungsgrad in der Quelle blockieren.

Kann KI Dokumente in mehreren Sprachen gleichzeitig zusammenfassen?

Ja, moderne mehrsprachige Modelle unterstützen gemischtsprachige Zusammenfassungen. Ein praktisches Problem ist die Fachterminologie: Rechtliche und finanzielle Klauseln haben präzise Bedeutungen, die sich nicht immer direkt zwischen Sprachen übertragen lassen. Für zweisprachige Dokumente (z. B. ein polnischer Vertrag mit einer englischen Arbeitsübersetzung) lohnt es sich, separate Indizes pro Sprache aufzubauen und die Ergebnisse sprachübergreifend zu vergleichen, statt sich auf automatische Übersetzung in der Zusammenfassungsschicht zu verlassen.

Wie viele Token kostet die Zusammenfassung eines 100-seitigen Dokuments?

Das hängt von der Strategie ab. Map-Reduce auf 100 Seiten mit 500-Token-Chunks und 20% Overlap generiert etwa 250 Fragmente. Jede Map-Phase ist ein Modellaufruf, die Reduce-Phase ein weiterer. Bei einem Modell mit einem Preis von 1-3 USD pro Million Token kostet eine Zusammenfassung zwischen einigen Dutzend Cent und einigen Euro. Bei großen Volumina (Dutzende Dokumente pro Woche) lohnt es sich, einen Modell-Router in Betracht zu ziehen: ein günstigeres Modell für die Map-Phase, ein leistungsfähigeres für die Reduce-Phase und für Fragen zu kritischen Klauseln.

Können KI-Zusammenfassungen als Beweismittel in einem Rechtsstreit verwendet werden?

Nein. Die Zusammenfassung ist ein Produkt des Sprachmodells und kann Fehler, Auslassungen oder falsche Interpretationen des rechtlichen Kontexts enthalten. Beweismittel in einem Rechtsstreit ist der Originaltext des Dokuments. Die Zusammenfassung kann als internes Werkzeug zur Orientierung und Triage verwendet werden, ersetzt aber nicht das Original oder eine rechtliche Stellungnahme. KI-Systeme zur Zusammenfassung rechtlicher Dokumente sind im Sinne des AI Act Entscheidungshilfesysteme und erfordern, dass der Mensch die Möglichkeit hat, jede Empfehlung des Modells zu überprüfen und zu überschreiben.