AI asystent głosowy na telefon: zamiast IVR, uczciwie

Firma wdraża IVR w 2014 roku i w 2026 roku klienci nadal słyszą menu wyboru. Z kilku wdrożeń, które analizowaliśmy, 35 do 60 procent dzwoniących rozłącza się przed dotarciem do konsultanta. My w Cashcrown testowaliśmy kilkanaście architektur agentów głosowych na polskojęzycznych zestawach rozmów. Poniżej opisujemy to, co zmierzono.

Pipeline: jak wygląda jedna tura rozmowy

Każda wymiana zdań w rozmowie z agentem głosowym przechodzi przez cztery etapy:

STT (Speech-to-Text): mikrofon lub linia telefoniczna przekazuje strumień audio do modelu ASR. Model zamienia mowę na tekst. Na dobrej linii telefonicznej Word Error Rate dla polskiego wynosi 5 do 12 procent przy modelach klasy Whisper large-v3 lub commercial API. Na głośnej ulicy albo ze słabym połączeniem mobilnym WER skacze do 20 do 35 procent. To jest twarda rzeczywistość polskiej telefonii i żaden marketing jej nie zmieni.
Klasyfikacja intencji: tekst transkryptu trafia do modelu językowego, który przypisuje go do jednej z predefiniowanych kategorii (sprawdź status, umów wizytę, godziny otwarcia, brak dopasowania). Agent korzysta tu z tool-use: wywołuje funkcję do systemu CRM, kalendarza lub bazy FAQ w zależności od intencji.
Odpowiedź z treścią: agent pobiera dane z systemu (status przesyłki, dostępne terminy) i komponuje odpowiedź. Krótki tekst, 1 do 3 zdań. Im dłużej agent mówi, tym większe ryzyko, że klient przerwie.
TTS (Text-to-Speech): tekst odpowiedzi trafia do syntezatora głosu. Nowoczesne modele TTS (ElevenLabs, Azure Neural TTS, OpenAI TTS) brzmią naturalnie w polskim. Opóźnienie samej syntezy to 80 do 200 ms przy streamowaniu pierwszych tokenów.

Cała pętla STT + intencja + TTS powinna zamknąć się w 0,8 do 1,5 sekundy od zakończenia wypowiedzi klienta. To jest TTFT dla głosu: Time to First Token, czyli kiedy klient słyszy pierwsze słowo odpowiedzi.

Budżet latencji: gdzie czas się rozchodzi

Poniższa tabela pokazuje, jak rozkłada się czas w realistycznym wdrożeniu lokalnym (faster-whisper na GPU) i w wariancie chmurowym (commercial API):

Etap	Lokalnie (GPU)	Chmura (API)
STT (2 do 5 sek. audio)	150 do 300 ms	300 do 600 ms
Klasyfikacja intencji (LLM mały, 7B)	200 do 500 ms	150 do 400 ms
Zapytanie do systemu (CRM/DB)	50 do 200 ms	50 do 200 ms
TTS (pierwsze słowo, streaming)	80 do 200 ms	100 do 250 ms
Suma (mediana)	480 do 1200 ms	600 do 1450 ms

Wartości to zakresy z testów wewnętrznych, nie gwarancje. Każda instalacja wymaga własnego pomiaru, bo SIP trunk, WebRTC i gateway PSTN mają różne charakterystyki jitter. Jeśli suma przekracza 2,5 sekundy regularnie, klienci interpretują ciszę jako zerwane połączenie i transfer rate wzrasta gwałtownie.

Barge-in: klient mówi zanim agent skończy

Klasyczny IVR blokuje wejście klienta podczas odtwarzania komunikatu. Agenci głosowi klasy produkcyjnej obsługują barge-in: klient może przerwać agenta w połowie zdania i zacząć mówić. Agent zatrzymuje syntezę i przetwarza nową wypowiedź.

Barge-in wymaga detekcji aktywności głosowej (VAD, Voice Activity Detection) z progiem czułości ustawionym ostrożnie. Za niski próg powoduje, że szum tła lub muzyka on-hold uruchamia detekcję fałszywie. Za wysoki próg nie wyłapuje cichych wypowiedzi klientów. Ustawienie wymaga testowania z nagraniami z docelowego środowiska, nie z syntetycznym audiodem.

Barge-in jest ważny dla odczucia rozmowy jako naturalnej i jego brak to jeden z sygnałów, po których klienci rozpoznają starą architekturę.

Co agent obsługuje dobrze, a co wymaga człowieka

Nie ma sensu wdrażać agenta głosowego do wszystkiego. Granica między automatyzacją a eskalacją do człowieka musi być zaprojektowana świadomie, nie odkrywana w produkcji.

Agent obsługuje dobrze:

Status przesyłki, zamówienia lub zgłoszenia (odczyt z CRM lub systemu logistycznego)
Godziny otwarcia, adresy, podstawowe informacje produktowe
Umawianie i przekładanie wizyt w kalendarzu (przy idempotentnym zabezpieczeniu podwójnej rezerwacji)
Proste FAQ: co potrzeba do wizyty, jak długo czeka się na decyzję, jak zrezygnować ze subskrypcji (informacja, nie akcja)
Wstępne kierowanie: agent pyta, w jakiej sprawie dzwoni klient, zanim połączy z właściwym działem

Agent MUSI przekazać do człowieka (human-handoff):

Reklamacje i skargi, szczególnie gdy klient jest wyraźnie sfrustrowany lub mówi podniesionym głosem
Każda prośba klienta o człowieka, w dowolnym momencie rozmowy
Kwestie finansowe: zwrot pieniędzy, zmiana planu taryfowego, wszelkie operacje na koncie
Dane osobowe: zmiana numeru PESEL, adresu, danych płatniczych
Sytuacje niejednoznaczne, gdy intencja nie dopasowała się z pewnością powyżej progu (np. 0,75 w klasyfikatorze)
Klient brzmi płaczliwie, przestraszony lub wspomina sytuację kryzysową

Reguła twarda: żadna akcja nieodwracalna nie może być wykonana przez agenta bez potwierdzenia przez człowieka lub dwuetapowej weryfikacji tożsamości. Anulowanie umowy, zmiana rachunku bankowego, usunięcie konta: to nie są zadania dla agenta głosowego działającego solo.

Architektura guardrails w warstwie głosowej różni się od czatu. Nie ma możliwości pokazania klientowi linku ani przycisku. Jedyna ścieżka eskalacji to werbalna: agent informuje o przekazaniu rozmowy i transfer następuje w ciągu 30 sekund.

▶Zaprojektuj zakres agenta głosowego dla swojej firmysandbox · reasoning

Polskojęzyczne ASR: uczciwe ograniczenia

Polszczyzna jest trudna dla modeli ASR z kilku powodów: bogata fleksja (ta sama treść wyrażona inaczej morfologicznie), długie słowa złożone i akcenty regionalne. Do tego linie telefoniczne mają ograniczone pasmo (8 kHz w klasycznym PSTN), co odbiera modelowi część informacji akustycznej.

Co to oznacza w praktyce:

Imiona i nazwiska mają WER wyższy niż zdania ogólne. To samo nazwisko może pojawić się w transkrypcie w kilku wariantach pisowni zależnie od wymowy i akcentu mówcy.
Nazwy ulic, miast i kodów pocztowych są źródłem błędów. Agent nie powinien polegać na dyktowaniu adresu głosem jako jedynej ścieżce wprowadzania danych.
Cyfry mówione grupami (np. numer telefonu) są transkrybowane wiarygodniej niż pojedynczo. Warto prosić klientów o podawanie cyfr parami.
Szum tła (wiatr, głosy w tle, muzyka) degraduje jakość silniej niż w angielskim, gdzie modele mają więcej danych treningowych z trudnych warunków.

Rozsądna polityka to: gdy ASR sygnalizuje niskie zaufanie transkryptu, agent prosi o powtórzenie raz, a przy drugim niepowodzeniu eskaluje do człowieka bez dalszych prób. Pętla z trzykrotnym prośbą o powtórzenie niszczy doświadczenie rozmowy bardziej niż bezpośrednie połączenie z konsultantem.

Monitorowanie: co mierzyć po wdrożeniu

Wdrożenie agenta głosowego bez warstwy observability to działanie w ciemno. Kluczowe metryki:

Containment rate: procent rozmów zakończonych przez agenta bez transferu do człowieka. Dla prostych usług (statusy, godziny) realny target to 50 do 70 procent. Wyższy wynik bez ręcznej weryfikacji rozmów może oznaczać, że agent zamknął rozmowę zamiast dobrze ją obsłużyć.
Transfer rate: procent klientów proszących o konsultanta. Wysoki transfer rate (powyżej 40 procent) wskazuje na zbyt wąski zakres agenta lub zbyt wysoki próg eskalacji.
Abandon rate: procent klientów rozłączających się przed uzyskaniem odpowiedzi. Bezpośredni wskaźnik złego doświadczenia lub zbyt długiej latencji.
WER na próbkach produkcyjnych: regularne odsłuchy 50 do 100 losowych rozmów przez człowieka, z ręczną oceną jakości transkrypcji. ASR degraduje się, gdy zmienia się populacja dzwoniących lub warunki akustyczne.
Intencje nierozpoznane: procent rozmów bez dopasowania do żadnej kategorii. Wzrost tego wskaźnika sygnalizuje nowe typy pytań, których agent nie obsługuje.

Monitoring opisuje szczegółowo artykuł o klasyfikacji i routingu zgłoszeń AI. Ogólna architektura monitorowania agentów jest w artykule o automatyzacji obsługi klienta AI.

RODO i AI Act: co jest obowiązkowe

Rozmowa telefoniczna z agentem AI to dane osobowe od pierwszej sekundy. Głos jest daną biometryczną w rozumieniu RODO, nawet bez intencji identyfikacji biometrycznej.

Obowiązkowe elementy wdrożenia:

Ujawnienie tożsamości AI na początku rozmowy (wymóg AI Act od 2 sierpnia 2026): klient musi wiedzieć, że rozmawia z systemem automatycznym, zanim poda jakiekolwiek dane.
Maskowanie PII przed wysłaniem transkryptu do zewnętrznego LLM: numery PESEL, kart płatniczych i inne dane identyfikacyjne muszą być wychwycone przez NER i zastąpione tokenami przed analizą przez model chmurowy.
Retencja nagrań zgodna z polityką przechowywania danych: nagrania nie mogą być trzymane bez podstawy prawnej i okresu retencji.
Ścieżka realizacji prawa do usunięcia danych: nagrania i transkrypty konkretnego klienta muszą być możliwe do zlokalizowania i usunięcia na żądanie.

Dla instalacji z przetwarzaniem głosu lokalnie ryzyko data-residency jest minimalne. Dla wariantów chmurowych konieczna jest umowa powierzenia przetwarzania (DPA) z dostawcą ASR i TTS.

Różnice między agentem głosowym a chatbotem od strony architektury i decyzji projektowych opisuje artykuł voice AI vs chatbot. Szerszy kontekst voice AI dla firm znajdziesz w artykule voice AI dla firm.

FAQ

Ile wynosi realistyczna latencja agenta głosowego w polskim wdrożeniu?

W wariancie lokalnym (GPU, faster-whisper + mały model 7B + streaming TTS) mediana pełnej pętli to 480 do 1200 ms. W wariancie chmurowym (commercial API) to 600 do 1450 ms. Wartości powyżej 2,5 sekundy powodują wyraźny wzrost abandon rate. Każde wdrożenie wymaga własnych pomiarów na docelowej infrastrukturze, bo jitter linii telefonicznej i opóźnienia sieci mocno wpływają na wynik końcowy.

Czy agent głosowy działa dobrze z polskim akcentem i gwarą?

Zależy od modelu ASR i zestawu treningowego. Modele klasy Whisper large-v3 i komercyjne API (Azure, Google) mają przyzwoite wyniki dla standardowej polszczyzny, ale WER rośnie przy akcentach regionalnych. Obowiązkowy jest benchmark na próbie 200 do 500 nagrań z Twoich klientów przed decyzją o architekturze. Nie polegaj na ogólnych benchmarkach dostawcy.

Jakie rozmowy agent MUSI przekazać do człowieka?

Każda reklamacja z emocjami, każda prośba klienta o człowieka (natychmiastowo), wszelkie akcje nieodwracalne (anulowanie umowy, zmiana danych płatniczych, usunięcie konta) oraz sytuacje, gdy klasyfikator intencji ma niskie zaufanie. Brak wyraźnej ścieżki eskalacji to najczęstszy błąd pierwszych wdrożeń. Klient powinien móc poprosić o konsultanta w dowolnym momencie i trafić do człowieka w ciągu 30 sekund.

Czy agent głosowy może przyjmować płatności przez telefon?

Nie bez dodatkowych zabezpieczeń. Przyjmowanie danych karty płatniczej przez kanał głosowy wymaga zgodności z PCI DSS, co jest oddzielnym i złożonym wymogiem. Podejście stosowane w praktyce to przekierowanie klienta na stronę płatności przez SMS lub e-mail zamiast dyktowania numeru karty agentowi. Zmiana danych rachunku bankowego przez agenta głosowego bez potwierdzenia przez człowieka jest niedopuszczalna.

Ile kosztuje wdrożenie agenta głosowego dla małej firmy?

Zakres zależy od wolumenu połączeń i wybranej architektury. Wariant chmurowy (external ASR + LLM API + TTS API) ma niski próg wejścia, ale koszty per-call rosną z wolumenem. Przy 100 do 200 połączeniach dziennie opłacalność wariantu lokalnego zaczyna się pojawiać po 6 do 12 miesiącach. Realny kosztorys dla Waszego scenariusza daje kalkulator ROI. Wdrożenie AI w call center, w tym voice bot, szczegółowo opisuje artykuł AI w call center.