Das sehen wir regelmäßig: Das Demo beeindruckt die Geschäftsführung, der Pilot bearbeitet zwei Wochen lang die ersten Anfragen fehlerfrei, und dann kommt die Produktion – und alles beginnt zu knirschen. Der Agent, der im Demo perfekt antwortete, eskaliert plötzlich die Hälfte der Fälle, generiert eine Rechnung, die doppelt so hoch ist wie prognostiziert, oder gibt falsche Preisinformationen. Das ist kein Modellausfall. Es ist der Moment, in dem sichtbar wird, dass Pilot und Produktion zwei verschiedene Systeme sind, obwohl sie denselben Agenten nutzen.
Im Folgenden zerlegen wir, was sich genau zwischen Demo und einem System ändert, auf dem ein realer Prozess basiert – und wie man diesen Weg schrittweise geht, ohne Reputation oder Budget zu riskieren.
Warum der Pilot immer besser aussieht als die Produktion
#Der Pilot lügt nicht, aber er läuft unter Bedingungen, die Probleme kaschieren. Das ist keine Boshaftigkeit – es ist einfach eine andere Traffic-Verteilung und andere Erwartungen.
| Dimension | Pilot / Demo | Produktion |
|---|---|---|
| Traffic | sorgfältig ausgewählte Fragen, bekannte Tester | voller Schwanz untypischer Anfragen, Tippfehler, Provokationen |
| Volumen | einige Dutzend Gespräche pro Tag | Hunderte oder Tausende, mit Spitzen |
| Fehlertoleranz | „Das ist nur ein Test“ | Reklamation, Kundenverlust, rechtliches Risiko |
| Kosten | niemand schaut auf die Rechnung | monatliches Budget unter Kontrolle der Geschäftsführung |
| Verfügbarkeit | läuft, wenn jemand zuschaut | muss um 3 Uhr nachts ohne Aufsicht laufen |
Im Pilot stellen Tester Fragen, auf die der Agent „antworten kann“, weil sie intuitiv seltsame Fälle vermeiden. In der Produktion trifft der gesamte Schwanz an Anfragen ein: Fragen außerhalb des Bereichs, Versuche, Daten zu extrahieren, Halluzinationen, ausgelöst durch untypischen Kontext. Der Pilot misst „ob er kann“, die Produktion misst „ob er jedes Mal, günstig und sicher kann“. Das ist eine völlig andere Frage.
Was aufgebaut werden muss: sechs Produktionsschichten
#Der Übergang zur Produktion bedeutet den Aufbau einer operativen Schicht um den funktionierenden Kern. Sechs Elemente, die im Pilot meist fehlen, ohne die Produktion jedoch ein Glücksspiel ist.
- Monitoring und Alerts. Ohne Observability weißt du nur, dass der Agent „antwortet“, nicht, ob er gut antwortet. Du brauchst Qualitätsmetriken, Latenz p50/p95, Kosten pro Fall und Alerts, die jemanden wecken, bevor es der Kunde tut. Wir gehen darauf ausführlicher in unserem Text über Monitoring der Qualität von Agenten AI ein.
- Guardrails. Guardrails sind die Schicht, die Injektionsversuche, Datenlecks und Antworten außerhalb des Bereichs blockiert. Im Pilot greift niemand den Agenten an; in der Produktion versucht es jemand am ersten Tag. Die Mechanik beschreiben wir im Artikel über Sicherheit von Agenten AI.
- Mensch in der Schleife. Menschliche Aufsicht und ein klarer Eskalationspfad entscheiden, wann der Agent einen Fall weitergibt. Das ist kein Systemversagen – es ist die Voraussetzung, um ihn überhaupt in die Produktion zu lassen.
- Kostenkontrolle. Tageslimits, Budgets pro Kanal und ein LLM-Router, der ein günstiges Modell für einfache Aufgaben auswählt. Ohne dies wächst die Rechnung linear mit dem Traffic und wird unvorhersehbar.
- Rollback. Die Möglichkeit, sofort zur vorherigen Version des Prompts, der Wissensdatenbank oder des Modells zurückzukehren, wenn eine Änderung die Qualität verschlechtert. In der Produktion ist jede Änderung ein Risiko, bis sie innerhalb einer Minute rückgängig gemacht werden kann.
- Handhabung von Edge Cases. Was tut der Agent, wenn die Wissensdatenbank keine Antwort hat, wenn die Anfrage mehrdeutig ist, wenn die Integration nicht antwortet. Im Pilot tauchen diese Pfade nicht auf; in der Produktion sind sie Alltag.
Monitoring, Kosten und Rollback: die operative Schicht
#Die operative Schicht ist der Unterschied zwischen „wir haben es gestartet“ und „wir haben es unter Kontrolle“. Drei Mechanismen, die vom ersten Produktionstag an vorhanden sein sollten.
Das Monitoring beginnt im Router, durch den alle Modellaufrufe laufen. Jeder loggt Zeitstempel, Modell, Token-Anzahl, Latenz und das Ergebnis der Guardrails (durchgelassen / blockiert / eskaliert). Daraus baust du alle Metriken und Alerts – ohne diese Logs hast du keine Daten, nur Eindrücke.
Die Kostenkontrolle besteht aus Limits und Fallbacks. Ein Tageslimit pro Kanal begrenzt die Kosten, wenn der Traffic explodiert, und der Router leitet einfache Aufgaben (Klassifizierung, Routing) an ein kleines Modell weiter, während das große Modell für schwierige Fälle reserviert bleibt. Reale Tarife und die Berechnung der Stückkosten erläutern wir im Text darüber, wie viel ein Agent AI kostet.
Rollback erfordert, dass Prompt, Wissensdatenbank und Modellkonfiguration wie Code versioniert werden. Jede Implementierung hat ihre Versions-ID, und die Rückkehr zur vorherigen Version dauert eine Minute, nicht einen Tag. Ohne dies kann eine einzelne fehlgeschlagene Prompt-Änderung die Qualität wochenlang verschlechtern, bevor jemand die Ursache findet.
SLA, Guardrails und Edge Cases: die Vertrauensschicht
#SLA verändert die Anforderungen qualitativ. Das Demo läuft, wenn jemand zuschaut; die Produktion muss rund um die Uhr laufen, mit definierter Antwortzeit und einem Plan für den Fall, dass das Modell in der Cloud nicht mehr antwortet. Das erzwingt Fallbacks, Warteschlangen und klare Regeln für die Degradation – was der Agent tut, wenn er nicht innerhalb der SLA-Zeit antworten kann.
Guardrails in der Produktion sind mehrschichtig, nicht nur ein einmaliger Filter. Wir prüfen die Eingabe (Injektionsversuche, Datenlecks), kontrollieren den Antwortbereich und loggen jede Blockade in den Audit-Trail. Am wichtigsten ist, dass die Schutzmuster alle unterstützten Sprachen abdecken – ein Angriff in einer anderen Sprache als Deutsch geht durch, wenn die Regeln nur Deutsch umfassen. Einen vollständigen Überblick über die Schichten gibt der Sicherheitsaudit für AI-Assistenten.
Edge Cases machen den Großteil der Arbeit bei der Produktionsimplementierung aus. Anfragen außerhalb des Bereichs, mehrdeutige Absichten, keine Antwort in der Wissensdatenbank, nicht verfügbare Integration – jeder dieser Pfade benötigt eine explizite Regel. Die Standardregel lautet: Wenn die Sicherheit gering ist, eskaliert der Agent zum Menschen, statt zu raten. Ein Handoff ist besser als eine selbstbewusste falsche Antwort, die in einer Reklamation landet.
Wie man die Lücke schrittweise schließt
#Diese Lücke schließt man nicht mit einer einzigen Implementierung. Der Versuch, alles auf einmal zu starten, ist der schnellste Weg zu einem teuren Scheitern. Wir gehen das in Etappen an, jede mit einem harten Exit-Kriterium.
| Etappe | Umfang | Kriterium für den Übergang |
|---|---|---|
| 1. Geschlossener Pilot | enger Bereich, interner Traffic | stabile Qualität in der Kontrollstichprobe |
| 2. Shadow / Parallelbetrieb | Agent antwortet, Mensch entscheidet | Trefferquote über Schwellenwert, keine Guardrail-Vorfälle |
| 3. Enger Produktionsbetrieb | ein Kanal, Limits, vollständiges Monitoring | Kosten pro Fall unter Kontrolle, Eskalation im Rahmen |
| 4. Erweiterung | weitere Kanäle und Fälle | jeder neue Bereich hat eigene Metriken und Rollback |
Schlüssel ist die zweite Etappe: Der Agent läuft im realen Traffic, aber seine Antworten gehen nicht an den Kunden, sondern du vergleichst sie mit der menschlichen Entscheidung. Das liefert harte Daten zur Qualität bei echten Anfragen, bevor du etwas riskierst. Erst wenn die Zahlen stimmen, gehst du in den engen Produktionsbetrieb – ein Kanal, klare Limits, vollständiges Monitoring. Jede weitere Erweiterung des Bereichs behandelst du wie eine Mini-Implementierung mit eigenem Qualitätskriterium, nicht wie ein „Hinzufügen von Funktionen“.
FAQ
#Warum funktionierte unser AI-Pilot hervorragend, aber die Produktion versagt?
#Weil der Pilot mit einfachem, ausgewähltem Traffic lief, ohne SLA und ohne untypische Anfragen. Die Produktion bringt den gesamten Schwanz seltsamer Fälle, größeres Volumen und reale Konsequenzen bei Fehlern. Das ist kein Modell-Regress, sondern das Sichtbarwerden der operativen Schicht, die im Pilot fehlte.
Was ist am wichtigsten, zuerst aufzubauen?
#Monitoring und Guardrails. Ohne Monitoring weißt du nicht, ob der Agent gut funktioniert, sondern nur, ob er antwortet; ohne Guardrails kann der erste untypische Traffic zu Datenlecks oder falschen Antworten führen. Kostenkontrolle und Rollback folgen direkt danach, bevor der Traffic wächst.
Brauchen wir dauerhaft einen Menschen in der Schleife, oder ist das ein Übergangsstadium?
#Ein Teil der Aufsicht ist vorübergehend – mit wachsendem Vertrauen in die Metriken erweitert sich der automatische Bereich. Aber ein klarer Eskalationspfad zum Menschen bleibt dauerhaft, denn es wird immer Fälle außerhalb des Bereichs oder sensible Angelegenheiten geben. Ziel ist nicht null Menschen, sondern die richtige Aufteilung zwischen Agent und Berater.
Wie lange dauert der Übergang vom Pilot zur Produktion?
#Das hängt von der Anzahl der Integrationen und den SLA-Anforderungen ab, daher geben wir eine Spanne an, keine feste Zahl. Für einen engen, einzelnen Kanal sind einige Wochen realistisch; eine breite Produktion mit Integration in viele Systeme ist ein größeres Projekt, das Monate dauert. Das schrittweise Vorgehen ermöglicht es, bereits in frühen Phasen Wert zu liefern, ohne auf das Ganze warten zu müssen.
Wie vermeidet man Kostenschocks in der Produktion?
#Führe Tageslimits pro Kanal ein, miss die Kosten pro bearbeitetem Fall ab dem ersten Tag und leite alle Aufrufe über einen Router, der für einfache Aufgaben ein günstiges Modell auswählt. Unvorhersehbare Rechnungen entstehen meist dadurch, dass jeder Schritt das größte Modell in der Cloud aufruft – das lässt sich einschränken, ohne die Qualität dort zu verlieren, wo sie benötigt wird.