AI голосовий асистент на телефон: замість IVR, чесно

AI голосовий асистент замінює класичний IVR: розуміє вільну мову, перевіряє статус, записує на прийом або відповідає на FAQ без touch-tone меню. Пайплайн складається з STT (розпізнавання мови) → класифікація наміру → відповідь з бази знань → TTS (синтез голосу). Ключовий параметр — затримка всього циклу: нижче 1,5 секунди розмова звучить природно, вище 3 секунд клієнти роз’єднуються. Скарги, емоційні ситуації та будь-які незворотні дії завжди передаються людині.

Компанія впроваджує IVR у 2014 році, а у 2026 році клієнти все ще чують меню вибору. З кількох впроваджень, які ми аналізували, 35–60 відсотків дзвінків перериваються до того, як клієнт потрапляє до консультанта. У Cashcrown ми тестували десятки архітектур голосових агентів на польськомовних наборах розмов. Нижче описано те, що було виміряно.

Пайплайн: як виглядає один цикл розмови

Кожен обмін репліками в розмові з голосовим агентом проходить через чотири етапи:

STT (Speech-to-Text): мікрофон або телефонна лінія передає аудіопотік до моделі ASR. Модель перетворює мову на текст. На якісній телефонній лінії Word Error Rate для польської мови становить 5–12 відсотків при використанні моделей класу Whisper large-v3 або комерційних API. На галасливій вулиці або зі слабким мобільним зв’язком WER зростає до 20–35 відсотків. Це сувора реальність польської телефонії, і жоден маркетинг її не змінить.
Класифікація наміру: текст транскрипту надходить до мовної моделі, яка відносить його до однієї з попередньо визначених категорій (перевірити статус, записатися на прийом, години роботи, немає відповідності). Агент використовує tool-use: викликає функцію до системи CRM, календаря або бази FAQ залежно від наміру.
Відповідь з контентом: агент отримує дані з системи (статус відправлення, доступні терміни) і формує відповідь. Короткий текст, 1–3 речення. Чим довше говорить агент, тим вищий ризик, що клієнт перерве.
TTS (Text-to-Speech): текст відповіді надходить до синтезатора голосу. Сучасні моделі TTS (ElevenLabs, Azure Neural TTS, OpenAI TTS) звучать природно польською. Затримка самого синтезу становить 80–200 мс при стрімінгу перших токенів.

Весь цикл STT + намір + TTS має завершуватися за 0,8–1,5 секунди від моменту закінчення висловлювання клієнта. Це TTFT для голосу: Time to First Token, тобто коли клієнт чує перше слово відповіді.

Бюджет затримки: де втрачається час

Наведена нижче таблиця показує, як розподіляється час у реалістичному локальному впровадженні (faster-whisper на GPU) та у хмарному варіанті (commercial API):

Етап	Локально (GPU)	Хмара (API)
STT (2–5 сек. аудіо)	150–300 мс	300–600 мс
Класифікація наміру (LLM малий, 7B)	200–500 мс	150–400 мс
Запит до системи (CRM/DB)	50–200 мс	50–200 мс
TTS (перше слово, стрімінг)	80–200 мс	100–250 мс
Сума (медіана)	480–1200 мс	600–1450 мс

Наведені значення — це діапазони з внутрішніх тестів, а не гарантії. Кожна установка потребує власних вимірювань, оскільки SIP trunk, WebRTC та шлюз PSTN мають різні характеристики джиттеру. Якщо сума регулярно перевищує 2,5 секунди, клієнти сприймають тишу як обрив з’єднання, і transfer rate різко зростає.

Barge-in: клієнт говорить до того, як агент закінчить

Класичний IVR блокує вхід клієнта під час відтворення повідомлення. Голосові агенти виробничого класу підтримують barge-in: клієнт може перервати агента на півслові та почати говорити. Агент зупиняє синтез і обробляє нову фразу.

Barge-in вимагає виявлення голосової активності (VAD, Voice Activity Detection) з обережно встановленим порогом чутливості. Занизький поріг призводить до того, що шум фону або музика on-hold хибно запускають детекцію. Зависокий поріг не вловлює тихі висловлювання клієнтів. Налаштування потребує тестування з записами з цільового середовища, а не з синтетичним аудіо.

Barge-in важливий для відчуття розмови як природної, і його відсутність — один із сигналів, за якими клієнти розпізнають стару архітектуру.

Що агент обслуговує добре, а що вимагає людини

Немає сенсу впроваджувати голосового агента для всього. Межа між автоматизацією та ескалацією до людини має бути спроектована свідомо, а не виявлятися у виробництві.

Агент обслуговує добре:

Статус відправлення, замовлення або звернення (читання з CRM або логістичної системи)
Години роботи, адреси, базова інформація про продукт
Запис та перенесення візитів у календарі (з ідемпотентним захистом від подвійного бронювання)
Прості FAQ: що потрібно для візиту, як довго чекати на рішення, як відмовитися від підписки (інформація, а не дія)
Попереднє спрямування: агент запитує, з якої причини дзвонить клієнт, перш ніж з’єднати з відповідним відділом

Агент МАЄ передати людині (human-handoff):

Скарги та претензії, особливо коли клієнт явно роздратований або говорить підвищеним голосом
Будь-яке прохання клієнта про людину, у будь-який момент розмови
Фінансові питання: повернення коштів, зміна тарифного плану, будь-які операції з рахунком
Персональні дані: зміна номера PESEL, адреси, платіжних даних
Неоднозначні ситуації, коли намір не був класифікований з упевненістю вище порогу (наприклад, 0,75 у класифікаторі)
Клієнт звучить плаксиво, налякано або згадує кризову ситуацію

Жорстке правило: жодна незворотна дія не може бути виконана агентом без підтвердження людиною або двоетапної верифікації особи. Скасування договору, зміна банківського рахунку, видалення облікового запису: це не завдання для голосового агента, який працює самостійно.

Архітектура guardrails у голосовому шарі відрізняється від чату. Немає можливості показати клієнту посилання чи кнопку. Єдиний шлях ескалації — вербальний: агент повідомляє про передачу розмови, і трансфер відбувається протягом 30 секунд.

▶Спроектуйте сферу відповідальності голосового агента для вашої компаніїsandbox · reasoning

Спроектуйте сферу відповідальності голосового агента для вашої компанії

PII maskowane · zero retencji

Польськомовні ASR: чесні обмеження

Польська мова складна для моделей ASR з кількох причин: багата флексія (та сама думка виражається різними морфологічними формами), довгі складні слова та регіональні акценти. До того ж телефонні лінії мають обмежений діапазон (8 кГц у класичному PSTN), що забирає у моделі частину акустичної інформації.

Що це означає на практиці:

Імена та прізвища мають вищий WER, ніж загальні речення. Те саме прізвище може з’являтися в транскрипті в кількох варіантах написання залежно від вимови та акценту мовця.
Назви вулиць, міст і поштових індексів є джерелом помилок. Агент не повинен покладатися на диктування адреси голосом як єдиний спосіб введення даних.
Цифри, сказані групами (наприклад, номер телефону), транскрибуються надійніше, ніж поодинці. Варто просити клієнтів називати цифри парами.
Шум фону (вітер, сторонні голоси, музика) погіршує якість сильніше, ніж в англійській, де моделі мають більше тренувальних даних у складних умовах.

Розумна політика: якщо ASR сигналізує низьку впевненість у транскрипті, агент просить повторити один раз, а при другій невдачі ескалує до людини без подальших спроб. Цикл із триразовим проханням повторити руйнує досвід розмови більше, ніж пряме з’єднання з консультантом.

Моніторинг: що вимірювати після впровадження

Впровадження голосового агента без шару observability — це робота наосліп. Ключові метрики:

Containment rate: відсоток розмов, завершених агентом без передачі людині. Для простих послуг (статуси, години роботи) реальна ціль — 50–70 відсотків. Вищий результат без ручної перевірки розмов може означати, що агент закрив розмову замість того, щоб належно її обслужити.
Transfer rate: відсоток клієнтів, які просять консультанта. Високий transfer rate (понад 40 відсотків) вказує на занадто вузьку сферу відповідальності агента або занадто високий поріг ескалації.
Abandon rate: відсоток клієнтів, які роз’єднуються до отримання відповіді. Прямий показник поганого досвіду або занадто довгої затримки.
WER на виробничих зразках: регулярне прослуховування 50–100 випадкових розмов людиною з ручною оцінкою якості транскрипції. ASR погіршується, коли змінюється популяція дзвінків або акустичні умови.
Нерозпізнані наміри: відсоток розмов без відповідності жодній категорії. Зростання цього показника сигналізує про нові типи запитань, які агент не обслуговує.

Моніторинг детально описаний у статті про класифікацію та маршрутизацію звернень AI. Загальна архітектура моніторингу агентів — у статті про автоматизацію обслуговування клієнтів AI.

RODO та AI Act: що є обов’язковим

Розмова телефоном з агентом AI є персональними даними з першої секунди. Голос є біометричними даними в розумінні RODO, навіть без наміру біометричної ідентифікації.

Обов’язкові елементи впровадження:

Розкриття ідентичності AI на початку розмови (вимога AI Act від 2 серпня 2026): клієнт має знати, що розмовляє з автоматичною системою, перш ніж надасть будь-які дані.
Маскування PII перед відправкою транскрипту до зовнішнього LLM: номери PESEL, платіжних карток та інші ідентифікаційні дані мають бути виявлені за допомогою NER і замінені токенами перед аналізом хмарною моделлю.
Зберігання записів відповідно до політики зберігання даних: записи не можуть зберігатися без правової підстави та строку зберігання.
Шлях реалізації права на видалення даних: записи та транскрипти конкретного клієнта мають бути можливими для локалізації та видалення на вимогу.

Для установок з локальною обробкою голосу ризик data-residency мінімальний. Для хмарних варіантів необхідна угода про доручення обробки (DPA) з постачальником ASR і TTS.

Відмінності між голосовим агентом і чат-ботом з точки зору архітектури та проектних рішень описані в статті voice AI vs chatbot. Широкий контекст voice AI для бізнесу — у статті voice AI для фірм.

FAQ

Яка реальна затримка голосового агента у польському впровадженні?

У локальному варіанті (GPU, faster-whisper + мала модель 7B + стрімінг TTS) медіана повного циклу становить 480–1200 мс. У хмарному варіанті (commercial API) — 600–1450 мс. Значення вище 2,5 секунди призводять до помітного зростання abandon rate. Кожне впровадження потребує власних вимірювань на цільовій інфраструктурі, оскільки джиттер телефонної лінії та мережеві затримки сильно впливають на кінцевий результат.

Чи добре працює голосовий агент з польським акцентом і говіркою?

Залежить від моделі ASR та тренувального набору. Моделі класу Whisper large-v3 та комерційні API (Azure, Google) показують прийнятні результати для стандартної польської мови, але WER зростає при регіональних акцентах. Обов’язковий бенчмарк на вибірці 200–500 записів від ваших клієнтів перед ухваленням рішення про архітектуру. Не покладайтеся на загальні бенчмарки постачальника.

Які розмови агент МАЄ передати людині?

Будь-яка скарга з емоціями, будь-яке прохання клієнта про людину (негайно), будь-які незворотні дії (скасування договору, зміна платіжних даних, видалення облікового запису) та ситуації, коли класифікатор наміру має низьку впевненість. Відсутність чіткого шляху ескалації — найпоширеніша помилка перших впроваджень. Клієнт має мати можливість попросити консультанта в будь-який момент і потрапити до людини протягом 30 секунд.

Чи може голосовий агент приймати платежі телефоном?

Ні без додаткових заходів безпеки. Прийом даних платіжної картки через голосовий канал вимагає відповідності PCI DSS, що є окремим і складним вимогою. Підхід, який застосовується на практиці, — це перенаправлення клієнта на сторінку оплати через SMS або електронну пошту замість диктування номера картки агентові. Зміна даних банківського рахунку голосовим агентом без підтвердження людиною є неприпустимою.

Скільки коштує впровадження голосового агента для малої компанії?

Вартість залежить від обсягу дзвінків та обраної архітектури. Хмарний варіант (зовнішній ASR + LLM API + TTS API) має низький поріг входу, але витрати per-call зростають з обсягом. При 100–200 дзвінках на день доцільність локального варіанту починає проявлятися через 6–12 місяців. Реальний кошторис для вашого сценарію надає калькулятор ROI. Впровадження AI у call-центрі, включаючи voice bot, детально описано в статті AI у call-центрі.

AI голосовий асистент на телефон: замість IVR, чесно

Пайплайн: як виглядає один цикл розмови

Кожен обмін репліками в розмові з голосовим агентом проходить через чотири етапи:

STT (Speech-to-Text): мікрофон або телефонна лінія передає аудіопотік до моделі ASR. Модель перетворює мову на текст. На якісній телефонній лінії Word Error Rate для польської мови становить 5–12 відсотків при використанні моделей класу Whisper large-v3 або комерційних API. На галасливій вулиці або зі слабким мобільним зв’язком WER зростає до 20–35 відсотків. Це сувора реальність польської телефонії, і жоден маркетинг її не змінить.
Класифікація наміру: текст транскрипту надходить до мовної моделі, яка відносить його до однієї з попередньо визначених категорій (перевірити статус, записатися на прийом, години роботи, немає відповідності). Агент використовує tool-use: викликає функцію до системи CRM, календаря або бази FAQ залежно від наміру.
Відповідь з контентом: агент отримує дані з системи (статус відправлення, доступні терміни) і формує відповідь. Короткий текст, 1–3 речення. Чим довше говорить агент, тим вищий ризик, що клієнт перерве.
TTS (Text-to-Speech): текст відповіді надходить до синтезатора голосу. Сучасні моделі TTS (ElevenLabs, Azure Neural TTS, OpenAI TTS) звучать природно польською. Затримка самого синтезу становить 80–200 мс при стрімінгу перших токенів.

Бюджет затримки: де втрачається час

Етап	Локально (GPU)	Хмара (API)
STT (2–5 сек. аудіо)	150–300 мс	300–600 мс
Класифікація наміру (LLM малий, 7B)	200–500 мс	150–400 мс
Запит до системи (CRM/DB)	50–200 мс	50–200 мс
TTS (перше слово, стрімінг)	80–200 мс	100–250 мс
Сума (медіана)	480–1200 мс	600–1450 мс

Barge-in: клієнт говорить до того, як агент закінчить

Що агент обслуговує добре, а що вимагає людини

Агент обслуговує добре:

Статус відправлення, замовлення або звернення (читання з CRM або логістичної системи)
Години роботи, адреси, базова інформація про продукт
Запис та перенесення візитів у календарі (з ідемпотентним захистом від подвійного бронювання)
Прості FAQ: що потрібно для візиту, як довго чекати на рішення, як відмовитися від підписки (інформація, а не дія)
Попереднє спрямування: агент запитує, з якої причини дзвонить клієнт, перш ніж з’єднати з відповідним відділом

Агент МАЄ передати людині (human-handoff):

Скарги та претензії, особливо коли клієнт явно роздратований або говорить підвищеним голосом
Будь-яке прохання клієнта про людину, у будь-який момент розмови
Фінансові питання: повернення коштів, зміна тарифного плану, будь-які операції з рахунком
Персональні дані: зміна номера PESEL, адреси, платіжних даних
Неоднозначні ситуації, коли намір не був класифікований з упевненістю вище порогу (наприклад, 0,75 у класифікаторі)
Клієнт звучить плаксиво, налякано або згадує кризову ситуацію

▶Спроектуйте сферу відповідальності голосового агента для вашої компаніїsandbox · reasoning

Спроектуйте сферу відповідальності голосового агента для вашої компанії

PII maskowane · zero retencji

Польськомовні ASR: чесні обмеження

Що це означає на практиці:

Імена та прізвища мають вищий WER, ніж загальні речення. Те саме прізвище може з’являтися в транскрипті в кількох варіантах написання залежно від вимови та акценту мовця.
Назви вулиць, міст і поштових індексів є джерелом помилок. Агент не повинен покладатися на диктування адреси голосом як єдиний спосіб введення даних.
Цифри, сказані групами (наприклад, номер телефону), транскрибуються надійніше, ніж поодинці. Варто просити клієнтів називати цифри парами.
Шум фону (вітер, сторонні голоси, музика) погіршує якість сильніше, ніж в англійській, де моделі мають більше тренувальних даних у складних умовах.

Моніторинг: що вимірювати після впровадження

Впровадження голосового агента без шару observability — це робота наосліп. Ключові метрики:

Containment rate: відсоток розмов, завершених агентом без передачі людині. Для простих послуг (статуси, години роботи) реальна ціль — 50–70 відсотків. Вищий результат без ручної перевірки розмов може означати, що агент закрив розмову замість того, щоб належно її обслужити.
Transfer rate: відсоток клієнтів, які просять консультанта. Високий transfer rate (понад 40 відсотків) вказує на занадто вузьку сферу відповідальності агента або занадто високий поріг ескалації.
Abandon rate: відсоток клієнтів, які роз’єднуються до отримання відповіді. Прямий показник поганого досвіду або занадто довгої затримки.
WER на виробничих зразках: регулярне прослуховування 50–100 випадкових розмов людиною з ручною оцінкою якості транскрипції. ASR погіршується, коли змінюється популяція дзвінків або акустичні умови.
Нерозпізнані наміри: відсоток розмов без відповідності жодній категорії. Зростання цього показника сигналізує про нові типи запитань, які агент не обслуговує.

RODO та AI Act: що є обов’язковим

Обов’язкові елементи впровадження:

Розкриття ідентичності AI на початку розмови (вимога AI Act від 2 серпня 2026): клієнт має знати, що розмовляє з автоматичною системою, перш ніж надасть будь-які дані.
Маскування PII перед відправкою транскрипту до зовнішнього LLM: номери PESEL, платіжних карток та інші ідентифікаційні дані мають бути виявлені за допомогою NER і замінені токенами перед аналізом хмарною моделлю.
Зберігання записів відповідно до політики зберігання даних: записи не можуть зберігатися без правової підстави та строку зберігання.
Шлях реалізації права на видалення даних: записи та транскрипти конкретного клієнта мають бути можливими для локалізації та видалення на вимогу.