Ein Kundenservice-Assistent mit einem 1.800-Token-System-Prompt und einem 600-Token-Kontext aus der Wissensdatenbank sendet bei jeder der 15.000 monatlichen Anfragen insgesamt 2.400 Token des „statischen“ Eingabeteils. Das sind 36 Millionen Token pro Monat für Text, der sich nicht ändert. Prompt Caching eliminiert diese Kosten ohne eine einzige Zeile Business-Code.
Was ist Prompt Caching und wie funktioniert der Präfix-Mechanismus
#Sprachmodelle verarbeiten jeden Aufruf von Grund auf neu, es sei denn, der Provider hat einen Präfix-Cache-Mechanismus implementiert. Beim ersten Aufruf mit einem bestimmten Präfix berechnet das Modell die sogenannten Attention-Keys und -Values (KV-Cache) für diese Token und speichert sie auf dem Server. Jeder nachfolgende Aufruf, der mit dem identischen Präfix beginnt, liest den KV-Cache aus, statt ihn neu zu berechnen.
Die Bedingung für einen Treffer ist präzise: Der Präfix muss bytegenau identisch sein vom Anfang des Prompts bis zum definierten Teilungspunkt. Ein geänderter Buchstabe, eine umgestellte Anweisung oder ein anders formatiertes Datum im System-Prompt unterbricht den Match. Das ist ein fundamentaler Unterschied zum semantischen Cache, der auf semantischer Ähnlichkeit basiert und Paraphrasen toleriert.
Praktische Konsequenzen dieses Mechanismus: Der statische System-Prompt muss am Anfang des Prompts stehen (vor dem variablen Nutzerkontext), und der variable Teil (Anfrage, frischer RAG-Kontext, Gesprächsverlauf) muss sich hinter dem Block befinden, den Sie cachen möchten. API-Anbieter, die diese Funktion anbieten (u. a. Anthropic, Google Gemini, einige Varianten von OpenAI), verlangen eine Mindestlänge des gecachten Fragments, meist 1.024 Token, damit der Cache auf der Infrastrukturseite rentabel ist.
Die Kosten für einen Cache-Treffer hängen vom Provider ab: Anthropic berechnet 10% des Preises eines normalen Eingabetokens für einen Cache-Treffer, Google Gemini kann im Context-Caching-Modus auf 25% des Basispreises sinken. In beiden Fällen kostet das Schreiben in den Cache (erster Aufruf) 100-125% des normalen Eingabepreises, sodass die Rentabilität ab der zweiten Anfrage mit demselben Präfix beginnt.
Wie sich Prompt Caching vom semantischen Cache unterscheidet
#Diese beiden Mechanismen arbeiten auf unterschiedlichen Ebenen und lösen unterschiedliche Probleme. Es lohnt sich, sie gegenüberzustellen, da Unternehmen, die KI einführen, sie oft verwechseln oder einen wählen, wo beide benötigt werden.
Prompt Caching arbeitet auf der Inferenz-Ebene: Es eliminiert die Kosten für die Verarbeitung des unveränderlichen Teils der Eingabe. Es berührt nicht die Antwort des Modells und speichert keine Ergebnisse. Jede Anfrage erreicht weiterhin das Modell und erhält eine einzigartige Antwort. Der Gewinn besteht ausschließlich in der Reduzierung der Kosten für Eingabetoken des statischen Präfixes.
Semantischer Cache arbeitet auf der Antwort-Ebene: Er erfasst das Paar (Anfrage, Antwort) und gibt bei einer semantisch ähnlichen Anfrage die gespeicherte Antwort ohne Beteiligung des Modells zurück. Der Gewinn besteht sowohl in den Kosten für Eingabe- als auch Ausgabetoken und kann sogar die Latenz des Modells vollständig eliminieren (10-30 ms statt 300-1500 ms).
Beide Mechanismen ergänzen sich: Der semantische Cache bearbeitet wiederholbare FAQ-Fragen ohne Modell, während Prompt Caching die Kosten für alle übrigen Anfragen senkt, die ohnehin mit einem statischen Präfix an das Modell gesendet werden. In einem System mit umfangreichem RAG lohnt es sich, beide gleichzeitig zu berücksichtigen, wie wir ausführlicher im Artikel über die Optimierung der Token-Kosten von LLMs beschreiben.
Wann Prompt Caching die größten Einsparungen bringt
#Die Einsparung ist direkt proportional zu zwei Faktoren: dem Anteil des statischen Präfixes an der Gesamtlänge des Prompts und dem Anfragevolumen. Szenarien mit einer großen Multiplikation dieser Faktoren sind natürliche Prioritäten.
Assistent mit langem System-Prompt und großem RAG-Kontext. Wenn der System-Prompt 2.000 Token hat und bei jedem Aufruf 1.500 Token Dokumente aus der Wissensdatenbank als statischer Produktkontext angehängt werden, umfasst der Präfix 3.500 Token. Bei 10.000 monatlichen Anfragen sind das 35 Millionen Eingabetoken, die eliminiert werden können. Bei einem Preis von 0,003 USD/1k Token beträgt die Einsparung 80-100 USD pro Monat, bei einem Premium-Modell (0,015 USD/1k) übersteigt sie 450 USD pro Monat.
Dokumentenverarbeitung im Batch-Modus. Die Analyse eines langen Dokuments (Bericht, Vertrag, Datensatz), aufgeteilt auf mehrere analytische Aufrufe, ist ein klassischer Fall: Das Dokument ist der Präfix, und die analytischen Fragen ändern sich. Prompt Caching reduziert die Kosten für die mehrfache Analyse derselben Datei um 60-80%.
Mehrstufige Agenten-Pipelines. In einer Agenten-Architektur, die mehrere Schritte in einer Sitzung ausführt, wobei jeder Schritt denselben System-Prompt und die bisherige Historie als Präfix sieht, kumulieren sich die Einsparungen mit jedem zusätzlichen Schritt.
Wann der Effekt marginal ist: Systeme mit kurzen Prompts (unter 1.024 Token statischer Präfix qualifiziert sich nicht für den Cache bei den meisten Providern), Systeme mit hoher Kontextvariabilität (wo sich der „statische“ Präfix alle paar Anfragen ändert) und Single-Shot-Aufrufe, bei denen jeder Prompt einzigartig ist.
Wie man den Prompt strukturiert, um den Cache zu treffen
#Die Reihenfolge der Blöcke im Prompt ist eine ingenieurtechnische Entscheidung mit direktem Einfluss auf die TCO des Systems. Praktische Regel: Von am statischsten zu am variabelsten.
Struktur optimiert für Cache:
- System-Prompt (Rollenanweisungen, Ton, Regeln, Guardrails) — am statischsten, ändert sich alle paar Wochen oder Monate.
- Statischer Wissenskontext (Produktdokumente, FAQ, Firmen-Glossar) — ändert sich bei Aktualisierung der Wissensdatenbank, nicht bei jeder Anfrage.
- Gesprächsverlauf (vorherige Runden) — ändert sich alle paar Runden, wächst aber innerhalb einer Sitzung schrittweise.
- Nutzeranfrage — variabel, am Ende.
Strukturelle Fehler, die den Cache zerstören: Einfügen von Datum oder Zeitstempel in den System-Prompt (ändert sich jede Sekunde, Präfix trifft nie den Cache), Platzieren des variablen Nutzerkontexts vor den statischen Anweisungen, dynamisches Umformatieren statischer Blöcke bei jedem Aufruf.
Es lohnt sich, Token-Separatoren zwischen den Blöcken einzuführen, wenn das API dies zulässt, um den Teilungspunkt zu definieren. Einige SDKs (Anthropic Python SDK ab Version 0.28) unterstützen die Annotation cache_control: {"type": "ephemeral"} auf Nachrichtenebene, was die genaue Markierung des Teilungspunkts zwischen statischem und variablem Segment ermöglicht.
Detaillierte Muster für den Aufbau von System-Prompts, einschließlich der Reihenfolge der Elemente und der Struktur der Anweisungen, beschreiben wir im Artikel über Prompt Engineering für Unternehmen.
Tabelle: Szenario vs. Einsparung vs. Bedingung für Cache-Treffer
#| Szenario | Anteil des statischen Präfixes | Geschätzte Einsparung bei Eingabetoken | Bedingung für Cache-Treffer |
|---|---|---|---|
| Assistent mit umfangreichem System-Prompt (2.000+ Tok.) | 60-80% des Prompts | 50-70% der Eingabekosten | Präfix bytegenau identisch, min. 1.024 Tok. |
| RAG mit großem Produktkontext (1.500+ Tok. Dokumente) | 40-65% des Prompts | 35-55% der Eingabekosten | Dokumentenblock vor Nutzeranfrage |
| Analyse langer Dokumente (Batch, mehrere Fragen) | 70-90% des Prompts | 60-80% der Eingabekosten | Dokument als Präfix, Fragen als Suffix |
| Mehrstufiger Agent (mehrere Schritte/Sitzung) | 50-75% des Prompts pro Schritt | 45-65% der Eingabekosten | System-Prompt + Historie als Cache, neuer Schritt als Suffix |
| Kurzer System-Prompt (< 500 Tok.) | < 30% des Prompts | < 15% der Eingabekosten | Unterhalb der Mindestschwelle der meisten Provider |
| Prompt mit dynamischem Datum/Zeitstempel im Präfix | 0% (Präfix immer anders) | 0% | Trifft nicht den Cache, erfordert Refaktorisierung |
Prompt Caching und Self-Hosting mit lokalen Modellen
#Prompt Caching ist eine Funktion der serverseitigen Infrastruktur. Lokal ausgeführte Modelle über Ollama, vLLM oder llama.cpp können diesen Mechanismus unterstützen, aber es hängt von der konkreten Implementierung des Inferenz-Servers ab.
vLLM (ab Version 0.4.0) unterstützt Prefix Caching automatisch für alle Modelle, sofern enable_prefix_caching=True beim Start gesetzt ist. llama.cpp mit dem Parameter --cache-prompt speichert und lädt den KV-Cache zwischen Sitzungen im selben Prozess. Ollama (Stand 2026) exponiert diese Option nicht über das öffentliche API, aber der Mechanismus ist in der llama.cpp-Schicht vorhanden, auf der es basiert.
Für Self-Hosting ist ein zusätzlicher Speicherbedarf entscheidend: Der KV-Cache für einen 2.000-Token-Präfix eines 70B-Modells belegt 0,5-2 GB VRAM (abhängig von der Quantisierungsgenauigkeit). Bevor Sie Prefix Caching auf lokaler Infrastruktur aktivieren, prüfen Sie, ob Sie VRAM-Reserven haben. Die Einsparungen bei GPU-Zeit und Durchsatz können jedoch bei hohem Anfragevolumen für denselben Präfix erheblich sein.
Eine Analyse der Rentabilitätsschwelle zwischen API und Self-Hosting, die Hardwarekosten und Prompt Caching auf beiden Seiten berücksichtigt, finden Sie im Artikel über die Kosten für den Betrieb eines KI-Agenten.
Probieren Sie es selbst: Analyse der Rentabilität von Prompt Caching für Ihr System
#FAQ
#Erfordert Prompt Caching Änderungen im Anwendungscode?
#Kommt auf den Provider an. Bei Anthropic müssen Sie die cache_control-Blöcke im SDK oder direkt in der API-Anfrage markieren, was ein paar Zeilen Code erfordert. Google Gemini Context Caching hat einen separaten Endpunkt zum Speichern des Kontexts vor dem Aufruf. OpenAI (ausgewählte Modelle) cached Präfixe automatisch ohne Annotation, aber nur bei erneuter Verwendung exakt desselben Präfixes. In jedem Fall betrifft die Änderung die API-Aufrufschicht, nicht die Business-Logik des Assistenten.
Wie lange hält der Provider den Präfix-Cache vor?
#Die Cache-Lebensdauer (TTL) variiert zwischen den Providern. Anthropic setzt den TTL für Standard-Cache auf 5 Minuten, mit der Möglichkeit, ihn durch einen weiteren Aufruf zu aktualisieren. Google Gemini Context Caching erlaubt das Setzen eines eigenen TTL (von wenigen Minuten bis zu mehreren Stunden) und berechnet separate Gebühren für die Cache-Speicherung pro Stunde. Bei niedrigem Anfragevolumen (unter einigen Anfragen pro Minute) kann ein TTL von 5 Minuten zu häufigen Cache-Misses führen und die effektive Einsparung verringern.
Prompt Caching und RODO: Werden Daten länger in der Provider-Infrastruktur gespeichert?
#Ja, der Präfix-Cache wird für die Dauer des TTL auf der Provider-Seite gespeichert. Wenn der System-Prompt oder der RAG-Kontext personenbezogene oder vertrauliche Firmendaten enthält, bedeutet die Nutzung von Prompt Caching, dass diese Daten länger auf den Servern des Providers gespeichert werden als bei einem einzelnen Aufruf. Bevor Sie den Cache aktivieren, prüfen Sie die DPA-Vereinbarung (Data Processing Agreement) mit dem Provider und bewerten Sie, ob der Inhalt des Präfixes eine DPIA erfordert. Wenn sensible Daten die lokale Infrastruktur nicht verlassen dürfen, sollten Sie Self-Hosting mit vLLM Prefix Caching in Betracht ziehen.
Ja, und das ist einer der messbaren Nebeneffekte. Die Eliminierung der Neuberechnung des KV-Cache für einen großen Präfix verkürzt die Zeit bis zum ersten Token der Antwort um 15-40% für typische System-Prompt-Größen. Der Effekt ist besonders bei Präfixen über 2.000 Token und Modellen mit langem Kontext (100k+) sichtbar, wo die vollständige Verarbeitung des Präfixes mehrere hundert Millisekunden dauert.
Kann man Prompt Caching mit einem Modell-Router kombinieren?
#Ja, das ist ein häufiges Optimierungsmuster. Ein Modell-Router leitet Anfragen an Modelle verschiedener Klassen weiter (günstig/schnell vs. teuer/genau). Prompt Caching sollte separat für jede Modellklasse aktiviert werden, da der System-Präfix für verschiedene Modelle im Router unterschiedlich ist. Router, die auf n8n oder eigenem Code basieren, können die Modell-ID an die Prompt-Management-Schicht weitergeben, damit der Cache-Schlüssel die Modellversion enthält und Treffer zwischen verschiedenen Modellen mit ähnlichen System-Prompts vermieden werden.