KI-Sprachassistent fürs Telefon: statt IVR, ehrlich

Ein Unternehmen führt 2014 IVR ein, und 2026 hören Kunden immer noch Auswahlmenüs. Bei mehreren Implementierungen, die wir analysiert haben, legen 35 bis 60 Prozent der Anrufer auf, bevor sie einen Berater erreichen. Bei Cashcrown haben wir Dutzende Architekturen von Sprachagenten mit polnischsprachigen Gesprächssätzen getestet. Im Folgenden beschreiben wir die gemessenen Ergebnisse.

Pipeline: Wie eine Gesprächsrunde aussieht

Jeder Wortwechsel in einem Gespräch mit einem Sprachagenten durchläuft vier Phasen:

STT (Speech-to-Text): Das Mikrofon oder die Telefonleitung überträgt den Audiostream an ein ASR-Modell. Das Modell wandelt Sprache in Text um. Bei einer guten Telefonleitung liegt die Word Error Rate für Polnisch bei 5 bis 12 Prozent bei Modellen der Klasse Whisper large-v3 oder kommerziellen APIs. Auf einer lauten Straße oder bei schlechter Mobilfunkverbindung springt die WER auf 20 bis 35 Prozent. Das ist die harte Realität der polnischen Telefonie, und kein Marketing kann das ändern.
Intent-Klassifizierung: Der transkribierte Text wird an ein Sprachmodell übergeben, das ihn einer vordefinierten Kategorie zuordnet (Status prüfen, Termin vereinbaren, Öffnungszeiten, keine Übereinstimmung). Der Agent nutzt hier Tool-Use: Er ruft je nach Intent eine Funktion im CRM-System, Kalender oder der FAQ-Datenbank auf.
Antwort mit Inhalt: Der Agent ruft Daten aus dem System ab (Sendungsstatus, verfügbare Termine) und komponiert eine Antwort. Kurzer Text, 1 bis 3 Sätze. Je länger der Agent spricht, desto höher ist das Risiko, dass der Kunde unterbricht.
TTS (Text-to-Speech): Der Antworttext wird an den Sprachsynthesizer übergeben. Moderne TTS-Modelle (ElevenLabs, Azure Neural TTS, OpenAI TTS) klingen auf Polnisch natürlich. Die Verzögerung der Synthese selbst beträgt 80 bis 200 ms beim Streaming der ersten Tokens.

Die gesamte Schleife STT + Intent + TTS sollte sich in 0,8 bis 1,5 Sekunden nach Ende der Kundenäußerung schließen. Das ist der TTFT für Sprache: Time to First Token, also wenn der Kunde das erste Wort der Antwort hört.

Latenzbudget: Wo die Zeit verloren geht

Die folgende Tabelle zeigt, wie sich die Zeit in einer realistischen lokalen Implementierung (faster-whisper auf GPU) und in einer Cloud-Variante (kommerzielle API) verteilt:

Phase	Lokal (GPU)	Cloud (API)
STT (2 bis 5 Sek. Audio)	150 bis 300 ms	300 bis 600 ms
Intent-Klassifizierung (kleines LLM, 7B)	200 bis 500 ms	150 bis 400 ms
Abfrage an System (CRM/DB)	50 bis 200 ms	50 bis 200 ms
TTS (erstes Wort, Streaming)	80 bis 200 ms	100 bis 250 ms
Summe (Median)	480 bis 1200 ms	600 bis 1450 ms

Die Werte sind Bereiche aus internen Tests, keine Garantien. Jede Installation erfordert eigene Messungen, da SIP-Trunk, WebRTC und PSTN-Gateway unterschiedliche Jitter-Charakteristiken aufweisen. Wenn die Summe regelmäßig 2,5 Sekunden überschreitet, interpretieren Kunden die Stille als unterbrochene Verbindung, und die Transferrate steigt sprunghaft an.

Barge-in: Der Kunde spricht, bevor der Agent fertig ist

Klassisches IVR blockiert die Eingabe des Kunden während der Wiedergabe einer Nachricht. Sprachagenten in Produktionsqualität unterstützen Barge-in: Der Kunde kann den Agenten mitten im Satz unterbrechen und zu sprechen beginnen. Der Agent stoppt die Synthese und verarbeitet die neue Äußerung.

Barge-in erfordert eine Voice Activity Detection (VAD) mit vorsichtig eingestelltem Empfindlichkeitsschwellenwert. Ein zu niedriger Schwellenwert führt dazu, dass Hintergrundgeräusche oder Warteschleifenmusik fälschlicherweise eine Erkennung auslösen. Ein zu hoher Schwellenwert erfasst leise Kundenäußerungen nicht. Die Einstellung erfordert Tests mit Aufnahmen aus der Zielumgebung, nicht mit synthetischem Audio.

Barge-in ist wichtig für das Gefühl eines natürlichen Gesprächs, und sein Fehlen ist eines der Signale, an denen Kunden alte Architekturen erkennen.

Was der Agent gut kann und was einen Menschen erfordert

Es macht keinen Sinn, einen Sprachagenten für alles einzusetzen. Die Grenze zwischen Automatisierung und Eskalation zum Menschen muss bewusst gestaltet werden, nicht erst in der Produktion entdeckt werden.

Der Agent kann gut:

Status von Sendungen, Bestellungen oder Meldungen abrufen (aus CRM oder Logistiksystem)
Öffnungszeiten, Adressen, grundlegende Produktinformationen
Termine vereinbaren und verschieben (mit idempotenter Absicherung gegen Doppelbuchungen)
Einfache FAQs: Was wird für den Besuch benötigt, wie lange dauert die Entscheidung, wie kündigt man ein Abonnement (Information, keine Aktion)
Vorab-Weiterleitung: Der Agent fragt, worum es geht, bevor er mit der richtigen Abteilung verbindet

Der Agent MUSS an einen Menschen übergeben (Human-Handoff):

Reklamationen und Beschwerden, insbesondere wenn der Kunde deutlich frustriert ist oder mit erhobener Stimme spricht
Jede Bitte des Kunden um einen Menschen, zu jedem Zeitpunkt des Gesprächs
Finanzielle Angelegenheiten: Rückerstattung, Tarifwechsel, alle Operationen auf dem Konto
Persönliche Daten: Änderung der PESEL-Nummer, Adresse, Zahlungsdaten
Mehrdeutige Situationen, wenn der Intent mit einer Sicherheit unter dem Schwellenwert (z. B. 0,75 im Klassifikator) zugeordnet wird
Der Kunde klingt weinerlich, verängstigt oder erwähnt eine Krisensituation

Harte Regel: Keine nicht umkehrbare Aktion darf vom Agenten ohne Bestätigung durch einen Menschen oder eine zweistufige Identitätsprüfung ausgeführt werden. Vertragskündigung, Änderung der Bankverbindung, Löschung des Kontos: Das sind keine Aufgaben für einen allein agierenden Sprachagenten.

Die Guardrails-Architektur in der Sprachschicht unterscheidet sich von der eines Chats. Es gibt keine Möglichkeit, dem Kunden einen Link oder eine Schaltfläche anzuzeigen. Der einzige Eskalationsweg ist verbal: Der Agent informiert über die Übergabe des Gesprächs, und der Transfer erfolgt innerhalb von 30 Sekunden.

▶Gestalten Sie den Umfang Ihres Sprachagenten für Ihr Unternehmensandbox · reasoning

Polnische ASR: Ehrliche Grenzen

Polnisch ist aus mehreren Gründen schwierig für ASR-Modelle: reiche Flexion (derselbe Inhalt wird morphologisch unterschiedlich ausgedrückt), lange zusammengesetzte Wörter und regionale Akzente. Dazu haben Telefonleitungen ein begrenztes Band (8 kHz im klassischen PSTN), was dem Modell einen Teil der akustischen Informationen entzieht.

Was das in der Praxis bedeutet:

Namen und Nachnamen haben eine höhere WER als allgemeine Sätze. Derselbe Nachname kann im Transkript je nach Aussprache und Akzent des Sprechers in mehreren Schreibvarianten auftauchen.
Straßennamen, Städte und Postleitzahlen sind Fehlerquellen. Der Agent sollte sich nicht allein auf die mündliche Eingabe von Adressen verlassen.
In Gruppen gesprochene Ziffern (z. B. Telefonnummern) werden zuverlässiger transkribiert als einzelne. Es lohnt sich, Kunden zu bitten, Ziffern paarweise anzugeben.
Hintergrundgeräusche (Wind, Stimmen im Hintergrund, Musik) beeinträchtigen die Qualität stärker als im Englischen, wo Modelle mehr Trainingsdaten aus schwierigen Bedingungen haben.

Eine vernünftige Politik ist: Wenn ASR ein niedriges Vertrauen in das Transkript signalisiert, bittet der Agent einmal um Wiederholung, und bei einem zweiten Fehlversuch wird an einen Menschen eskaliert, ohne weitere Versuche. Eine Schleife mit dreimaliger Bitte um Wiederholung zerstört das Gesprächserlebnis mehr als eine direkte Verbindung zum Berater.

Monitoring: Was nach der Implementierung gemessen werden muss

Die Implementierung eines Sprachagenten ohne Observability-Schicht ist ein Blindflug. Wichtige Metriken:

Containment Rate: Prozentsatz der Gespräche, die vom Agenten ohne Weiterleitung an einen Menschen abgeschlossen werden. Für einfache Dienstleistungen (Status, Öffnungszeiten) ist ein realistisches Ziel 50 bis 70 Prozent. Ein höherer Wert ohne manuelle Überprüfung der Gespräche kann bedeuten, dass der Agent das Gespräch beendet hat, anstatt es gut zu bedienen.
Transfer Rate: Prozentsatz der Kunden, die einen Berater anfordern. Eine hohe Transferrate (über 40 Prozent) deutet auf einen zu engen Agentenbereich oder eine zu hohe Eskalationsschwelle hin.
Abandon Rate: Prozentsatz der Kunden, die auflegen, bevor sie eine Antwort erhalten. Ein direkter Indikator für schlechte Erfahrung oder zu lange Latenz.
WER auf Produktionsstichproben: Regelmäßiges Abhören von 50 bis 100 zufälligen Gesprächen durch einen Menschen mit manueller Bewertung der Transkriptionsqualität. ASR verschlechtert sich, wenn sich die Population der Anrufer oder die akustischen Bedingungen ändern.
Nicht erkannte Intents: Prozentsatz der Gespräche ohne Zuordnung zu einer Kategorie. Ein Anstieg dieses Indikators signalisiert neue Fragetypen, die der Agent nicht bedient.

Das Monitoring wird im Artikel über Klassifizierung und Routing von AI-Anfragen detailliert beschrieben. Die allgemeine Monitoring-Architektur für Agenten findet sich im Artikel über Automatisierung des Kundenservice mit KI.

RODO und AI Act: Was ist Pflicht

Ein Telefongespräch mit einem KI-Agenten ist ab der ersten Sekunde ein personenbezogenes Datum. Die Stimme ist ein biometrisches Datum im Sinne der RODO, auch ohne biometrische Identifikationsabsicht.

Pflichtbestandteile der Implementierung:

Offenlegung der KI-Identität zu Beginn des Gesprächs (Anforderung des AI Act ab 2. August 2026): Der Kunde muss wissen, dass er mit einem automatisierten System spricht, bevor er irgendwelche Daten angibt.
Maskierung von PII vor dem Senden des Transkripts an ein externes LLM: PESEL-Nummern, Kreditkartendaten und andere identifizierende Daten müssen durch NER erfasst und vor der Analyse durch ein Cloud-Modell durch Tokens ersetzt werden.
Aufbewahrung von Aufnahmen gemäß der Datenspeicherungsrichtlinie: Aufnahmen dürfen nicht ohne rechtliche Grundlage und Aufbewahrungsfrist gespeichert werden.
Umsetzung des Rechts auf Löschung von Daten: Aufnahmen und Transkripte eines bestimmten Kunden müssen auf Anfrage lokalisierbar und löschbar sein.

Für Installationen mit lokaler Sprachverarbeitung ist das Risiko der Datenresidenz minimal. Für Cloud-Varianten ist ein Auftragsverarbeitungsvertrag (DPA) mit dem Anbieter von ASR und TTS erforderlich.

Die Unterschiede zwischen Sprachagenten und Chatbots in Bezug auf Architektur und Designentscheidungen beschreibt der Artikel Voice AI vs. Chatbot. Einen breiteren Kontext zu Voice AI für Unternehmen findest du im Artikel Voice AI für Unternehmen.

FAQ

Wie hoch ist die realistische Latenz eines Sprachagenten in einer polnischen Implementierung?

In der lokalen Variante (GPU, faster-whisper + kleines Modell 7B + Streaming-TTS) liegt der Median der gesamten Schleife bei 480 bis 1200 ms. In der Cloud-Variante (kommerzielle API) sind es 600 bis 1450 ms. Werte über 2,5 Sekunden führen zu einem deutlichen Anstieg der Abandon Rate. Jede Implementierung erfordert eigene Messungen auf der Zielinfrastruktur, da Jitter der Telefonleitung und Netzwerklatenzen das Endergebnis stark beeinflussen.

Funktioniert ein Sprachagent gut mit polnischem Akzent und Dialekt?

Das hängt vom ASR-Modell und dem Trainingsdatensatz ab. Modelle der Klasse Whisper large-v3 und kommerzielle APIs (Azure, Google) liefern für Standardpolnisch akzeptable Ergebnisse, aber die WER steigt bei regionalen Akzenten. Ein Benchmark mit 200 bis 500 Aufnahmen deiner Kunden ist vor der Entscheidung über die Architektur Pflicht. Verlassen Sie sich nicht auf allgemeine Benchmarks des Anbieters.

Welche Gespräche MUSS der Agent an einen Menschen übergeben?

Jede Reklamation mit Emotionen, jede Bitte des Kunden um einen Menschen (sofort), alle nicht umkehrbaren Aktionen (Vertragskündigung, Änderung von Zahlungsdaten, Kontolöschung) sowie Situationen, in denen der Intent-Klassifikator ein niedriges Vertrauen hat. Das Fehlen eines klaren Eskalationswegs ist der häufigste Fehler bei ersten Implementierungen. Der Kunde sollte jederzeit einen Berater anfordern können und innerhalb von 30 Sekunden mit einem Menschen verbunden werden.

Kann ein Sprachagent Zahlungen per Telefon entgegennehmen?

Nein, ohne zusätzliche Sicherheitsmaßnahmen. Die Entgegennahme von Kreditkartendaten über den Sprachkanal erfordert die Einhaltung von PCI DSS, was eine separate und komplexe Anforderung ist. Der in der Praxis angewandte Ansatz besteht darin, den Kunden auf eine Zahlungsseite per SMS oder E-Mail weiterzuleiten, anstatt die Kartennummer dem Agenten zu diktieren. Die Änderung von Bankverbindungsdaten durch einen Sprachagenten ohne Bestätigung durch einen Menschen ist unzulässig.

Wie viel kostet die Implementierung eines Sprachagenten für ein kleines Unternehmen?

Der Umfang hängt vom Anrufvolumen und der gewählten Architektur ab. Die Cloud-Variante (externes ASR + LLM API + TTS API) hat eine niedrige Einstiegshürde, aber die Kosten pro Anruf steigen mit dem Volumen. Bei 100 bis 200 Anrufen pro Tag beginnt die Wirtschaftlichkeit der lokalen Variante nach 6 bis 12 Monaten. Einen realistischen Kostenvoranschlag für Ihr Szenario liefert der ROI-Rechner. Die Implementierung von KI in Callcentern, einschließlich Voice Bots, wird im Artikel KI im Callcenter detailliert beschrieben.

KI-Sprachassistent fürs Telefon: statt IVR, ehrlich

Pipeline: Wie eine Gesprächsrunde aussieht

Jeder Wortwechsel in einem Gespräch mit einem Sprachagenten durchläuft vier Phasen:

STT (Speech-to-Text): Das Mikrofon oder die Telefonleitung überträgt den Audiostream an ein ASR-Modell. Das Modell wandelt Sprache in Text um. Bei einer guten Telefonleitung liegt die Word Error Rate für Polnisch bei 5 bis 12 Prozent bei Modellen der Klasse Whisper large-v3 oder kommerziellen APIs. Auf einer lauten Straße oder bei schlechter Mobilfunkverbindung springt die WER auf 20 bis 35 Prozent. Das ist die harte Realität der polnischen Telefonie, und kein Marketing kann das ändern.
Intent-Klassifizierung: Der transkribierte Text wird an ein Sprachmodell übergeben, das ihn einer vordefinierten Kategorie zuordnet (Status prüfen, Termin vereinbaren, Öffnungszeiten, keine Übereinstimmung). Der Agent nutzt hier Tool-Use: Er ruft je nach Intent eine Funktion im CRM-System, Kalender oder der FAQ-Datenbank auf.
Antwort mit Inhalt: Der Agent ruft Daten aus dem System ab (Sendungsstatus, verfügbare Termine) und komponiert eine Antwort. Kurzer Text, 1 bis 3 Sätze. Je länger der Agent spricht, desto höher ist das Risiko, dass der Kunde unterbricht.
TTS (Text-to-Speech): Der Antworttext wird an den Sprachsynthesizer übergeben. Moderne TTS-Modelle (ElevenLabs, Azure Neural TTS, OpenAI TTS) klingen auf Polnisch natürlich. Die Verzögerung der Synthese selbst beträgt 80 bis 200 ms beim Streaming der ersten Tokens.

Latenzbudget: Wo die Zeit verloren geht

Die folgende Tabelle zeigt, wie sich die Zeit in einer realistischen lokalen Implementierung (faster-whisper auf GPU) und in einer Cloud-Variante (kommerzielle API) verteilt:

Phase	Lokal (GPU)	Cloud (API)
STT (2 bis 5 Sek. Audio)	150 bis 300 ms	300 bis 600 ms
Intent-Klassifizierung (kleines LLM, 7B)	200 bis 500 ms	150 bis 400 ms
Abfrage an System (CRM/DB)	50 bis 200 ms	50 bis 200 ms
TTS (erstes Wort, Streaming)	80 bis 200 ms	100 bis 250 ms
Summe (Median)	480 bis 1200 ms	600 bis 1450 ms

Barge-in: Der Kunde spricht, bevor der Agent fertig ist

Barge-in ist wichtig für das Gefühl eines natürlichen Gesprächs, und sein Fehlen ist eines der Signale, an denen Kunden alte Architekturen erkennen.

Was der Agent gut kann und was einen Menschen erfordert

Der Agent kann gut:

Status von Sendungen, Bestellungen oder Meldungen abrufen (aus CRM oder Logistiksystem)
Öffnungszeiten, Adressen, grundlegende Produktinformationen
Termine vereinbaren und verschieben (mit idempotenter Absicherung gegen Doppelbuchungen)
Einfache FAQs: Was wird für den Besuch benötigt, wie lange dauert die Entscheidung, wie kündigt man ein Abonnement (Information, keine Aktion)
Vorab-Weiterleitung: Der Agent fragt, worum es geht, bevor er mit der richtigen Abteilung verbindet

Der Agent MUSS an einen Menschen übergeben (Human-Handoff):

Reklamationen und Beschwerden, insbesondere wenn der Kunde deutlich frustriert ist oder mit erhobener Stimme spricht
Jede Bitte des Kunden um einen Menschen, zu jedem Zeitpunkt des Gesprächs
Finanzielle Angelegenheiten: Rückerstattung, Tarifwechsel, alle Operationen auf dem Konto
Persönliche Daten: Änderung der PESEL-Nummer, Adresse, Zahlungsdaten
Mehrdeutige Situationen, wenn der Intent mit einer Sicherheit unter dem Schwellenwert (z. B. 0,75 im Klassifikator) zugeordnet wird
Der Kunde klingt weinerlich, verängstigt oder erwähnt eine Krisensituation

▶Gestalten Sie den Umfang Ihres Sprachagenten für Ihr Unternehmensandbox · reasoning

Polnische ASR: Ehrliche Grenzen

Was das in der Praxis bedeutet:

Namen und Nachnamen haben eine höhere WER als allgemeine Sätze. Derselbe Nachname kann im Transkript je nach Aussprache und Akzent des Sprechers in mehreren Schreibvarianten auftauchen.
Straßennamen, Städte und Postleitzahlen sind Fehlerquellen. Der Agent sollte sich nicht allein auf die mündliche Eingabe von Adressen verlassen.
In Gruppen gesprochene Ziffern (z. B. Telefonnummern) werden zuverlässiger transkribiert als einzelne. Es lohnt sich, Kunden zu bitten, Ziffern paarweise anzugeben.
Hintergrundgeräusche (Wind, Stimmen im Hintergrund, Musik) beeinträchtigen die Qualität stärker als im Englischen, wo Modelle mehr Trainingsdaten aus schwierigen Bedingungen haben.

Monitoring: Was nach der Implementierung gemessen werden muss

Die Implementierung eines Sprachagenten ohne Observability-Schicht ist ein Blindflug. Wichtige Metriken:

Containment Rate: Prozentsatz der Gespräche, die vom Agenten ohne Weiterleitung an einen Menschen abgeschlossen werden. Für einfache Dienstleistungen (Status, Öffnungszeiten) ist ein realistisches Ziel 50 bis 70 Prozent. Ein höherer Wert ohne manuelle Überprüfung der Gespräche kann bedeuten, dass der Agent das Gespräch beendet hat, anstatt es gut zu bedienen.
Transfer Rate: Prozentsatz der Kunden, die einen Berater anfordern. Eine hohe Transferrate (über 40 Prozent) deutet auf einen zu engen Agentenbereich oder eine zu hohe Eskalationsschwelle hin.
Abandon Rate: Prozentsatz der Kunden, die auflegen, bevor sie eine Antwort erhalten. Ein direkter Indikator für schlechte Erfahrung oder zu lange Latenz.
WER auf Produktionsstichproben: Regelmäßiges Abhören von 50 bis 100 zufälligen Gesprächen durch einen Menschen mit manueller Bewertung der Transkriptionsqualität. ASR verschlechtert sich, wenn sich die Population der Anrufer oder die akustischen Bedingungen ändern.
Nicht erkannte Intents: Prozentsatz der Gespräche ohne Zuordnung zu einer Kategorie. Ein Anstieg dieses Indikators signalisiert neue Fragetypen, die der Agent nicht bedient.

RODO und AI Act: Was ist Pflicht

Pflichtbestandteile der Implementierung:

Offenlegung der KI-Identität zu Beginn des Gesprächs (Anforderung des AI Act ab 2. August 2026): Der Kunde muss wissen, dass er mit einem automatisierten System spricht, bevor er irgendwelche Daten angibt.
Maskierung von PII vor dem Senden des Transkripts an ein externes LLM: PESEL-Nummern, Kreditkartendaten und andere identifizierende Daten müssen durch NER erfasst und vor der Analyse durch ein Cloud-Modell durch Tokens ersetzt werden.
Aufbewahrung von Aufnahmen gemäß der Datenspeicherungsrichtlinie: Aufnahmen dürfen nicht ohne rechtliche Grundlage und Aufbewahrungsfrist gespeichert werden.
Umsetzung des Rechts auf Löschung von Daten: Aufnahmen und Transkripte eines bestimmten Kunden müssen auf Anfrage lokalisierbar und löschbar sein.