Ein Unternehmen startet einen Piloten mit einem KI-Assistenten. Die ersten Tests laufen hervorragend. Nach einem Monat im Produktivbetrieb ist das Budget für die API um 280 % überschritten. Die Ursache ist nicht technischer Natur, sondern eine Designentscheidung aus der Pilotphase: Das System sendete vollständige PDFs an das Modell, anstatt durch RAG extrahierte Fragmente zu nutzen, und jede Anfrage enthielt eine 2400 Token lange Systemanweisung, die bei jedem Aufruf kopiert wurde.
Die Kosten für LLM-Tokens sind nicht linear zur Anzahl der Anfragen. Sie sind linear zur Anzahl der Tokens. Der Unterschied zwischen diesen beiden Aussagen ist der Unterschied zwischen einem haltbaren Budget und einem Budget, das die Abschaltung des Systems erzwingt.
Wie man Tokens zählt: Nicht alle sind preislich gleich
#Ein Token ist die grundlegende Abrechnungseinheit für Sprachmodelle. Ein Token entspricht in der Regel 3-4 Zeichen im Englischen, 2-3 Zeichen im Polnischen (polnische diakritische Zeichen, längere Wörter zerfallen in mehr Tokens). Für polnischen Text solltest du mit 30-40 % mehr Tokens rechnen als für das englische Äquivalent.
Ausgabetokens (Throughput) kosten in der Regel mehr als Eingabetokens. Die folgende Tabelle zeigt die typische Kostenstruktur für verschiedene Modellklassen (Richtpreise, prüfe die aktuellen Preise beim gewählten Anbieter).
| Modellklasse | Eingabetokens | Ausgabetokens | Preisverhältnis out/in |
|---|---|---|---|
| Kleines Modell (7B-13B, lokal) | 0 PLN (Self-Hosting) | 0 PLN (Self-Hosting) | — |
| API-Modell der Mittelklasse | 0,15-0,60 USD / 1M | 0,60-2,50 USD / 1M | 3-5× |
| API-Modell der Premiumklasse | 1,50-5,00 USD / 1M | 6,00-20,00 USD / 1M | 3-6× |
| Modell mit langem Kontext | 3,00-10,00 USD / 1M (>100k Tokens) | 10,00-30,00 USD / 1M | 3-4× |
Wichtige Beobachtung: Premium-Modelle kosten 10-30 Mal mehr als Modelle der Mittelklasse. Wenn ein Mittelklasse-Modell jedoch einen doppelt so langen Prompt benötigt, um dasselbe Ergebnis zu erzielen, ist der tatsächliche Unterschied anders. Bevor du ein Modell auswählst, miss beide Parameter: den Preis pro Token und die erforderliche Kontextlänge, um eine akzeptable Qualität zu erreichen.
Führe die Berechnung für deine eigenen Parameter mit dem Inference-Rechner durch, wo du das reale Volumen eingeben und die monatlichen Kosten in PLN erhalten kannst.
Wo die größten Kosten in der Praxis versteckt sind
#In den von uns analysierten Produktionsprojekten stammen 70-80 % der Token-Kosten aus drei Quellen, über die während des Piloten selten gesprochen wird.
System-Prompt, der in jede Anfrage kopiert wird. Die Systemanweisung, die das Verhalten des Assistenten beschreibt, umfasst in der Regel 500-3000 Tokens. Bei 10.000 Anfragen pro Tag und einem 1500-Token-Prompt ergeben sich 15 Millionen Tokens pro Monat allein für den Systemkontext, bevor das Modell auch nur eine Nutzerfrage liest. Die meisten API-Anbieter cachen System-Prompts nicht automatisch zwischen Aufrufen, es sei denn, du nutzt Prompt-Caching.
Übertragung vollständiger Dokumente statt Fragmente. Ein Agent, dem du eine PDF-Rechnung als vollständigen Text (2000-8000 Tokens) übergibst, anstatt durch RAG extrahierte 3-5 Fragmente (150-400 Tokens), kann 10-30 Mal mehr Tokens pro Operation verbrauchen. Der Unterschied ist dramatisch bei großem Dokumentenvolumen.
Konversationshistorie ohne Beschneidung. Chat-Schnittstellen, die die gesamte Gesprächsgeschichte an das Modell übergeben, wachsen linear mit der Länge der Sitzung. Ein Gespräch mit 20 Austauschen kann 15.000 Tokens Kontext bei der letzten Anfrage haben, während der Nutzer etwas Einfaches fragt. Ein Sliding Window (die letzten N Nachrichten) oder eine Zusammenfassung älterer Geschichte reduziert diese Kosten um 60-80 %.
Prompt-Caching: Der größte schnelle Gewinn
#Die meisten großen API-Anbieter bieten Prompt-Caching an, das die Kosten für mehrfach verwendeten Prompt-Präfix (System-Prompt, Referenzdokumente, Anweisungen) um 70-90 % reduziert. Der Mechanismus funktioniert so, dass der Anbieter den Präfix hasht und den internen Zustand des Modells speichert. Zweite und weitere Aufrufe mit demselben Präfix zahlen nur einen Bruchteil des Preises.
Bedingungen, die erfüllt sein müssen, damit Caching funktioniert:
- Der Präfix muss byteweise identisch sein. Eine einzige Zeichenänderung macht den Cache ungültig.
- Der Präfix muss eine Mindestlänge überschreiten (normalerweise 1024-2048 Tokens, abhängig vom Anbieter).
- Die Aufrufe müssen innerhalb eines Zeitfensters erfolgen (normalerweise einige Minuten bis eine Stunde).
In der Praxis bedeutet das: Der System-Prompt und die Anweisungen sollten am Anfang des Kontexts stehen, vor dem dynamischen Teil (Nutzerfrage, RAG-Ergebnisse). Dynamische Elemente sollten am Ende stehen, um den Präfix nicht ungültig zu machen.
Für ein System mit einem 2000-Token-System-Prompt und 10.000 Aufrufen pro Tag reduziert Prompt-Caching die Kosten für Eingabetokens um 50-65 %, ohne dass sich die Anwendungslogik ändert.
RAG als Strategie zur Token-Begrenzung
#RAG wird oft als Technik zur Verbesserung der Antwortqualität beschrieben. Das stimmt, aber im Kontext der Token-Kosten ist RAG vor allem eine Strategie zur Kontextselektion.
Der Unterschied zwischen einem System mit RAG und ohne:
- Ohne RAG: Ganze Unternehmensdokumente (10-50 Seiten, 8000-40.000 Tokens) gelangen in jede Anfrage.
- Mit RAG: Semantische Suche extrahiert 3-5 der relevantesten Fragmente (300-800 Tokens), und nur diese gelangen in das Modell.
Ein gutes Reranking nach der Suchphase reduziert zusätzlich die Anzahl der an das Modell übergebenen Fragmente bei gleichbleibender Relevanz. Das Muster retrieve-rerank-trim (20 Fragmente abrufen, reranken, Top 3-5 senden) ermöglicht eine Reduzierung der Kontext-Tokens um 70-80 % im Vergleich zum naiven retrieve-all.
Der Artikel Firmen-GPT auf Wissensbasis beschreibt die RAG-Architektur im Detail. Für Pipelines mit großem Dokumentenvolumen lohnt sich der Artikel Wie man Unternehmensdaten für KI vorbereitet, in dem Strategien zum Chunking behandelt werden, die sich direkt auf die Anzahl der Tokens pro Anfrage auswirken.
Modell-Router: Nicht jede Anfrage benötigt ein Premium-Modell
#Ein LLM-Router ist eine Schicht, die die Anfrage klassifiziert und an das günstigste Modell weiterleitet, das für die Aufgabe ausreicht. In einem produktiven Kundenservice-System sieht die typische Verteilung der Anfragen wie folgt aus:
| Anfrage-Typ | Beispiel | Erforderliches Modell | Relative Kosten |
|---|---|---|---|
| Einfache FAQ, ein Satz Antwort | „Wann haben Sie geöffnet?" | Kleines Modell / lokal | 1× |
| Informationsgewinnung aus Dokument | „Was steht in Paragraph 3 dieses Vertrags?" | Modell der Mittelklasse | 3-5× |
| Mehrdokumentenanalyse | „Vergleichen Sie diese beiden Angebote" | Premium-Modell | 10-20× |
| Reasoning, komplexe Schlussfolgerungen | „Welcher Fehler steckt in diesem Argument?" | Premium-Modell oder Thinking Mode | 15-40× |
Routing basierend auf Intent-Klassifizierung (ein kleines Modell klassifiziert, ein großes führt nur aus, wenn nötig) reduziert die Kosten um 50-70 % in Systemen mit heterogenen Anfrage-Typen. Es erfordert einen A/B-Test, um zu bestätigen, dass die Antwortqualität beim Routing nicht unter einen akzeptablen Schwellenwert fällt.
Unsere Infrastruktur OpenClaw Router wendet dieses Muster standardmäßig an, indem einfache Anfragen an lokale Modelle und komplexe Anfragen an Cloud-Modelle weitergeleitet werden, wobei jedes Aufruf auditiert wird.
Monitoring und Alerts: Token-Budget als SLO
#Ohne Messung sind die Token-Kosten unsichtbar, bis die Rechnung des API-Anbieters das Budget übersteigt. Behandle den Token-Verbrauch als operative Metrik, analog zu Latenz und Verfügbarkeit.
Minimale Metriken, die im Produktivbetrieb verfolgt werden sollten:
- Eingabe- und Ausgabetokens pro Endpunkt oder Feature (nicht nur insgesamt).
- Kosten pro Nutzer-Session oder pro Geschäfts-Transaktion.
- Prozentualer Anteil des System-Prompts an den Eingabetokens.
- Cache-Hit-Rate für Prompt-Caching (falls genutzt).
- Verteilung der Antwortlänge des Modells (lange Antworten können unnötige Weitschweifigkeit signalisieren).
Alerts sollten auf zwei Ebenen funktionieren: Warnung bei 70 % des Tagesbudgets und harte Grenze bei 90 % mit automatischer Drosselung oder Degradierung auf ein günstigeres Modell. Monitoring der KI-Agenten-Qualität beschreibt den breiteren Kontext der Observability, einschließlich Observability-Metriken für die KI-Schicht.
Output-Strategien: Kürzere Antworten ohne Qualitätsverlust
#Ausgabetokens sind teurer. Einige Muster, die die Antworten des Modells verkürzen, ohne die Qualität zu beeinträchtigen:
Präzise Formatanweisungen. „Antworte in maximal 3 Sätzen“ funktioniert, aber besser ist: „Nenne maximal 3 Punkte als Liste, ohne Einleitung und Zusammenfassung“. Modelle neigen ohne Anweisung dazu, zeremonielle Einleitungen und Schlüsse zu generieren, die keinen Mehrwert bieten.
Strukturierter Output. Wenn du Daten erwartest, die vom Code verarbeitet werden sollen, eliminiert strukturierter Output (JSON-Schema) das narrative Drumherum. Die Extraktion von 5 Feldern aus einem Dokument als JSON umfasst 80-120 Ausgabetokens, während dieselbe Extraktion als Narration 300-600 Tokens umfasst.
Temperatur und Länge. Höhere Temperatur verlängert die Antworten nicht, aber Temperatur=0 mit expliziter Länge im Prompt liefert bei deterministischen Aufgaben vorhersehbarere, kürzere Antworten.
Stop-Sequenzen. Definiere ein Stop-Token für das Modell (z. B. ### oder ein bestimmter JSON-Separator), damit das Modell nicht nach dem eigentlichen Antwortende weitermacht. Besonders nützlich bei der Generierung von Listen mit begrenzter Elementanzahl.
Self-Hosting als Strategie für großes Volumen
#Bei einem Volumen von über 5-10 Millionen Tokens pro Tag kann Self-Hosting eines lokalen Modells günstiger sein als eine API, selbst unter Berücksichtigung der Infrastrukturkosten. Die Rentabilitätsschwelle hängt vom Modell, der Hardware und dem Anfrageprofil ab.
Für Aufgaben, die kein Frontier-Modell erfordern (Klassifizierung, Datenextraktion, FAQ, einfache Zusammenfassungen), erreichen lokale Modelle der 7B-34B-Klasse eine akzeptable Qualität bei nahezu null Kosten pro Token. Der Artikel Kosten local vs. API LLM beschreibt einen ROI-Rechner und typische Nutzungsprofile.
Die Entscheidung für Self-Hosting betrifft nicht nur die Kosten. Es geht auch um Data Residency (Daten verlassen die Infrastruktur nicht), Compliance mit RODO für sensible Daten und die Eliminierung der Abhängigkeit von externen Anbietern. Der Artikel Self-Hosted LLM und RODO behandelt diese Aspekte im Detail.
Live ausprobieren
#Beschreibe die Architektur deines KI-Systems (wie viele Anfragen pro Tag, wie lang ist der System-Prompt, nutzt du RAG) und das Modell zeigt dir, wo das größte Optimierungspotenzial für Tokens liegt (Playground: PII maskiert, keine Speicherung):
FAQ
#Senkt ein Wechsel zu einem günstigeren Modell immer die Kosten?
#Nicht immer. Ein günstigeres Modell erfordert oft einen längeren, präziseren Prompt, um dasselbe Ergebnis wie ein Premium-Modell zu erzielen. Wenn die Kosten pro Token 5 Mal niedriger sind, der Prompt aber 3 Mal länger sein muss und das Modell 2 Mal mehr Ausgabetokens generiert, um Fehler zu vermeiden, ist die tatsächliche Einsparung gering oder nicht vorhanden. Miss vor dem Modellwechsel die Gesamtkosten pro Aufgabe (nicht pro Token) an einem repräsentativen Testset mit mindestens 200 Beispielen.
Was ist Prompt-Caching und wann funktioniert es wirklich?
#Prompt-Caching ist ein Mechanismus, bei dem der API-Anbieter den internen Zustand des Modells für einen mehrfach verwendeten Prompt-Präfix speichert. Jeder weitere Aufruf mit identischem Präfix zahlt für gecachte Tokens statt für volle Eingabetokens, was normalerweise 70-90 % günstiger ist. Voraussetzung: Der Präfix muss byteweise identisch zwischen den Aufrufen sein und eine Mindestlänge (meist 1024 Tokens) überschreiten. Eine einzige Zeichenänderung macht den Cache ungültig. In der Praxis funktioniert es hervorragend für feste System-Prompts und kontextuelle Anweisungen, die sich zwischen Nutzeranfragen nicht ändern.
Wie reduziert RAG die Token-Kosten im Vergleich zur Übertragung vollständiger Dokumente?
#RAG ersetzt teuren Volltext-Kontext durch günstigen Fragment-Kontext. Statt ein ganzes Dokument (2000-40.000 Tokens) bei jeder Anfrage zu senden, nutzt RAG semantische Suche, um 3-5 relevante Fragmente (150-600 Tokens insgesamt) auszuwählen. Bei 10.000 Anfragen pro Tag mit einem 5000-Token-Dokument beträgt der Unterschied 50 Millionen vs. 2-3 Millionen Tokens pro Monat. Die Kosten für Embeddings und Suche sind vernachlässigbar im Vergleich zu den Einsparungen bei den Modell-Tokens. Mehr zum Aufbau einer RAG-Pipeline im Artikel Semantische Suche und Embeddings im Unternehmen.
Ist Self-Hosting eines lokalen Modells kostensicherer als eine API?
#Self-Hosting eliminiert die Kosten pro Token, hat aber eigene Kosten: GPU-Hardware oder gemietete Server, Wartung, Modell-Updates und Ingenieursaufwand. Bei kleinem Volumen (unter 1 Million Tokens pro Tag) ist eine API meist günstiger, wenn man die Betriebskosten berücksichtigt. Self-Hosting wird bei konstant hohem Volumen und Aufgaben, die kein Frontier-Modell erfordern, rentabel. Nutze den ROI-Rechner, um beide Szenarien für dein Nutzungsprofil zu vergleichen.
Wie misst man die Token-Kosten pro Feature und nicht nur insgesamt?
#Verfolge Tokens auf Aufrufebene, nicht auf Session-Ebene. Speichere bei jedem Modellaufruf: das Feature oder den Endpunkt, der es ausgelöst hat, die Anzahl der Eingabe- und Ausgabetokens sowie ob Cache genutzt wurde. Aggregiere nach Feature in einem Dashboard (z. B. Grafana mit Prometheus-Metriken). So siehst du, welches Feature für 60 % der Kosten verantwortlich ist, und kannst die Optimierung priorisieren. Das Implementierungsmuster beschreibt Monitoring der KI-Agenten-Qualität im Abschnitt zur Telemetrie von LLM-Aufrufen.