Das juristische Team einer Kanzlei implementierte einen RAG-Assistenten zur Durchsuchung von 2000 Verträgen. Nach einigen Wochen stellte man fest, dass der Assistent präzise auf Fragen zu Klauseln von der ersten und letzten Seite eines Dokuments antwortete, jedoch konsequent Bestimmungen aus den mittleren Abschnitten ignorierte. Das Modell war nicht defekt. Das Problem lag darin, dass bei jeder Anfrage 20-30 Textfragmente ohne jegliche Sortierung übermittelt wurden, wobei diejenigen in der Mitte des Fensters vom Modell mit niedrigerer Priorität behandelt wurden.
Dies ist ein klassisches Beispiel für schlechtes Context Engineering. Es geht nicht darum, wie viel Text man dem Modell gibt. Es geht darum, was man gibt, in welcher Reihenfolge und ob das Modell eine reale Chance hat, davon zu profitieren.
Treffsicheres Retrieval statt des gesamten Dokuments
#Der häufigste Fehler besteht darin, dem LLM das gesamte Dokument statt treffsicher ausgewählter Fragmente zu übergeben. Bei Dokumenten mit 50 oder mehr Seiten füllt sich das Kontextfenster schnell, die Kosten steigen, und es gibt keine Garantie, dass das Modell seine Aufmerksamkeit auf den richtigen Abschnitt richtet.
Der RAG-Ansatz funktioniert anders: Statt des gesamten Dokuments gelangen 5-10 Fragmente, die durch semantische Suche und optional einen Reranker ausgewählt wurden, ins Modell. Die Qualität dieser Fragmente hängt vom Chunking ab, das wir im Artikel über Chunking von Dokumenten für RAG beschreiben. In der Praxis zeigt sich deutlich, dass die Qualität der abgerufenen Fragmente einen größeren Einfluss auf die Treffsicherheit der Antworten hat als die Parameter des Modells selbst.
Menschliche Entscheidung: Die Anzahl der abgerufenen Fragmente (top-k) sowie die Schwelle zur Ablehnung schwacher Ergebnisse (Score-Threshold) erfordern eine Kalibrierung anhand eines testspezifischen Datensatzes für Ihr Dokument und Ihre Domäne. Die Einstellung dieser Parameter ist eine ingenieurtechnische, keine algorithmische Aufgabe.
Der Lost-in-the-Middle-Effekt und die Reihenfolge der Fragmente
#2023 veröffentlichten Forscher der Stanford University eine Beobachtung, die Praktiker aus AI-Projekten aus eigener Erfahrung kennen: Sprachmodelle erinnern sich deutlich besser an Informationen vom Anfang und Ende des Kontextfensters als an solche aus der Mitte. Der Effekt verstärkt sich mit der Länge des Fensters. Bei einem Fenster von 16.000 Token kann eine Information, die zwischen Position 6000 und 10.000 platziert ist, vom Modell praktisch ignoriert werden.
Praktische Konsequenzen für die Reihenfolge des Kontext-Einfügens:
- Systemanweisung: Immer am Anfang, vor den Dokumentenfragmenten.
- Treffsicherste RAG-Fragmente: Am Anfang der Liste, nicht am Ende.
- Gesprächsverlauf: Nach der Systemanweisung, aber vor den Dokumentenfragmenten.
- Fragmente mit geringer Relevanz: Falls sie eingebunden werden müssen, in der Mitte platzieren. Besser herausfiltern.
Das Ergebnis des Rerankings kann zur Sortierung genutzt werden: Das Fragment mit dem höchsten Score kommt zuerst, das niedrigste zuletzt (falls überhaupt). Bei Cashcrown empfehlen wir, für faktografische Anfragen weniger als 8 Fragmente in einem einzelnen Kontextfenster zu halten. Mehr verbessert selten die Qualität, erhöht aber immer die Kosten.
Komprimierung des Gesprächsverlaufs
#Bei konversationellen Assistenten wächst der Gesprächsverlauf mit jedem Austausch. Nach 10-15 Dialogrunden kann er 3000-6000 Token einnehmen, bevor überhaupt Fragmente aus der Wissensdatenbank hinzugefügt werden. Zwei Kompressionsstrategien, die wir in der Praxis anwenden:
Schrittweise Zusammenfassung: Nach jeder n-ten Runde (z. B. alle 5 Austausche) generiert der Agent eine Zusammenfassung des vorherigen Gesprächsabschnitts und ersetzt damit die vollständigen Transkripte dieser Runden. Die Zusammenfassung nimmt 200-400 Token statt 1500-2500 ein. Nachteil: Präzise Fakten, die in der Mitte des Gesprächs fallen, können in der Zusammenfassung vereinfacht werden. Fordere Zitate in der Zusammenfassung oder halte bei Entscheidungen an, die Präzision erfordern.
Vektorspeicher mit Selektion: Statt den Verlauf umzuschreiben, speicherst du ihn in einer Vektordatenbank (Muster beschrieben im Artikel über Agentengedächtnis in AI) und rufst nur die Fragmente ab, die für die aktuelle Anfrage relevant sind. Der Verlauf einer Woche alten Session verstopft das Fenster nicht, es sei denn, er wird benötigt.
Die Wahl zwischen diesen Ansätzen hängt von der Art des Dialogs ab. Bei mehrstufigen Gesprächen zu einem Dokument funktioniert schrittweise Zusammenfassung besser. Bei Assistenten, die Kunden über mehrere Wochen betreuen, ist Vektorspeicher unerlässlich. Die Entscheidung über die Kompressionsmethode sollte von jemandem getroffen werden, der versteht, welche Informationen aus dem Verlauf für den jeweiligen Anwendungsfall kritisch sind.
Token-Budget und Kosten sowie Latenz
#Jeder Token im Kontextfenster kostet und beeinflusst die Antwortzeit. Bei Cloud-Modellen liegen die Kosten für Eingabetoken zwischen 0,5 und 15 USD pro Million Token, abhängig vom Modell. Beim Self-Hosting sind es GPU-Zeit und Latenz. Die vollständigen Kosten und Optimierungsmuster beschreiben wir im Artikel über Kosten von LLM-Token.
Die folgende Tabelle zeigt, wie verschiedene Strategien zur Kontextbefüllung das Token-Budget, die Kosten und das Risiko einer Qualitätsverschlechterung beeinflussen:
| Strategie | Typische Kontextgröße (Token) | Relative Kosten | Risiko Lost-in-the-Middle |
|---|---|---|---|
| Vollständiges Dokument ohne Filterung | 8.000-128.000 | hoch | hoch bei über 16k |
| RAG top-5 ohne Reranking | 1.500-3.000 | niedrig | niedrig |
| RAG top-10 mit Reranking | 2.500-5.000 | mittel | niedrig (Sortierung) |
| Vollständiger Verlauf (15 Runden) | 3.000-6.000 | mittel | mittel |
| Komprimierter Verlauf | 800-1.500 | niedrig | niedrig |
| Vollständiger Verlauf + vollständiges Dokument | über 20.000 | sehr hoch | sehr hoch |
Eine gute Designregel: Jedes Kontextelement sollte sich durch einen konkreten Nutzen für die Qualität der Antwort rechtfertigen lassen. Wenn du nicht erklären kannst, warum ein bestimmtes Fragment dort ist, entferne es.
Komprimierung und Formatierung des Kontextinhalts
#Die Form des Kontexts ist neben seinem Inhalt entscheidend. Ein roher PDF nach OCR mit Artefakten, sich wiederholenden Kopfzeilen und Fußnoten ist ein schlechterer Kontext als derselbe Text nach Bereinigung und Strukturierung.
Einige konkrete Muster, die die Antwortqualität verbessern:
Quellenkennzeichnung: Jedes RAG-Fragment mit einem Label [Quelle: Vertrag XYZ, §3.2] zu versehen, ermöglicht es dem Modell, zu zitieren, und erlaubt dem Guardrail-System zu überprüfen, ob die Antwort nicht über die bereitgestellten Fakten hinausgeht. Das Zitieren von Quellen in der Antwort ist ein grundlegender Mechanismus zur Begrenzung von Halluzinationen. Mehr zu diesem Muster im Artikel über Begrenzung von AI-Halluzinationen.
Dekontextualisierung von Fragmenten: Ein Fragment wie „In diesem Fall beträgt die Frist 14 Tage“ ohne Angabe, um welchen Fall es sich handelt, ist nutzlos. Beim Chunking lohnt es sich, die Abschnittsüberschrift als Präfix zu jedem Fragment hinzuzufügen, damit das Modell den Kontext der Position im Dokument hat.
Negative Anweisung im Prompt: Eine explizite Anweisung an das Modell, „Ich weiß es nicht“ zu antworten, statt zu spekulieren, wenn die Fragmente keine Antwort enthalten, reduziert die Anzahl erfundener Antworten. Dies ist Teil des Prompt Engineerings, das im Artikel über Prompt Engineering für Unternehmen ausführlicher beschrieben wird.
Menschliche Entscheidung: Bei Ausgaben mit hohem Risiko (rechtliche, medizinische, finanzielle Entscheidungen) sollte das System immer das ursprüngliche Fragment angeben, aus dem die Antwort stammt. Die Überprüfung dieses Zitats durch einen Menschen ist ein obligatorischer Schritt, bevor auf Basis der Modellantwort gehandelt wird.
Teste dein eigenes Szenario
#FAQ
#Wie viele RAG-Fragmente sollte man in eine einzelne Anfrage einbinden?
#Die optimale Anzahl hängt von der Länge der Fragmente und dem Modell ab, aber in der Praxis liefern 5-8 gut rerankte Fragmente bessere Ergebnisse als 15-20 Fragmente ohne Selektion. Ab 10 Fragmenten steigt das Risiko des Lost-in-the-Middle-Effekts, und die Inferenzkosten steigen linear. Beginne mit top-5, messe die Qualität anhand eines Testdatensatzes und erhöhe vorsichtig.
Ersetzt ein längeres Kontextfenster einen gut gestalteten RAG?
#Nein. Modelle mit Kontextfenstern von 128.000 oder mehr Token verleiten dazu, das gesamte Dokument ohne Filterung einzufügen, aber die Präzision der Antworten auf Fragen zu Details aus der Mitte des Dokuments ist dann geringer als bei sorgfältigem Retrieval. Ein großes Kontextfenster ist ein nützliches Notfallwerkzeug oder für einmalige Analysen, kein Ersatz für die RAG-Architektur in Produktionssystemen.
Wie geht man mit Fragen um, auf die RAG-Fragmente keine Antwort liefern?
#Die Systemanweisung sollte das Modell explizit anweisen, die Antwort „Ich habe nicht genügend Informationen in den verfügbaren Dokumenten“ zurückzugeben, statt zu spekulieren. Es lohnt sich, die Rate solcher Antworten („Ich weiß es nicht“-Rate) auf einem Testdatensatz zu messen: Ein Wert unter 5-10 Prozent für eine gut indexierte Wissensdatenbank ist ein guter Referenzpunkt. Ein höherer Wert kann auf Probleme mit dem Chunking oder Retrieval hinweisen.
Wie beeinflusst die Komprimierung des Gesprächsverlaufs die Konsistenz langer Dialoge?
#Schrittweise Zusammenfassung kann präzise Fakten verlieren, die in der komprimierten Gesprächsphase fallen. Absicherung: Speichere Schlüsselinformationen (Zahlen, Daten, Namen der Parteien) als separaten strukturierten Datensatz neben der Zusammenfassung. Der Agent kann diesen Datensatz nach jeder Runde aktualisieren. Bei sensiblen Daten sollte eine vom Menschen genehmigte Aufbewahrungsrichtlinie entscheiden, was in den dauerhaften Speicher gelangt.
Ist Context Engineering eine einmalige Konfiguration oder ein kontinuierlicher Prozess?
#Kontinuierlich. Die Verteilung der Nutzeranfragen ändert sich im Laufe der Zeit, und damit auch die optimale Konfiguration von Retrieval und Kontextreihenfolge. Wir empfehlen eine monatliche Überprüfung des Gold-Standard-Testdatensatzes: Wenn der Indikator für Faithfulness oder Antwortgenauigkeit um mehr als 5 Prozentpunkte sinkt, untersuche, ob sich die Verteilung der Anfragen oder die Struktur der Dokumente geändert hat. Solche Qualitätsaudits sind ein kontinuierlicher Prozess, keine einmalige Systemeinrichtung.