ШІ в кол-центрі: голос, транскрипція, асистент агента

Консультант кол-центру обробляє 60-80 дзвінків на день. Після кожного він має вручну внести нотатку в CRM, позначити тему, встановити follow-up. Це займає 3-5 хвилин на дзвінок. При 70 дзвінках це 3,5 години введення даних замість обслуговування клієнтів. Це не проблема майбутнього, яку вирішить ШІ за кілька років. Це витрати, які можна виміряти в бюджеті вже сьогодні.

ШІ в кол-центрі — це не один інструмент. Це шар архітектурних рішень: що автоматизувати повністю, що підтримувати асистентом, а що залишити виключно людині. Нижче описую кожен з цих шарів з технічного та операційного боку.

Транскрипція розмов: фундамент усього іншого#

Транскрипція — це найпоширеніша точка входу для ШІ в кол-центрі. Ви перетворюєте аудіозапис на текст, а потім можете його аналізувати, індексувати, шукати та передавати до наступних моделей. Без транскрипції жоден з вищих шарів не працює.

Моделі ASR (Automatic Speech Recognition), доступні у 2026 році, поділяються на два класи. Хмарні моделі (SaaS) пропонують низький поріг входу та швидку інтеграцію через API, але кожен запис залишає інфраструктуру компанії. Локальні моделі (Whisper та його варіанти, включаючи faster-whisper, оптимізований під CPU) працюють повністю на власних серверах, що усуває проблему data-residency.

Для польського кол-центру ключовим є вибір моделі під мову. Більшість комерційних ASR мають хороші показники WER (Word Error Rate) для польської, але відмінності виникають при регіональних акцентах, галузевій термінології та мовленні в шумі. Бенчмарк перед впровадженням на вибірці з 200-500 реальних записів з вашого центру є обов’язковим.

Транскрипція може працювати в режимі post-call (після завершення розмови) або real-time (потоково під час розмови). Режим post-call простіший і достатній для 80% випадків: нотатки CRM, аналіз тем, QA записів. Режим real-time необхідний лише для асистенції консультанта під час розмови.

Голосовий запис — це PII за визначенням. Голос є біометричними даними в розумінні GDPR, навіть якщо ви не використовуєте верифікацію особи за голосом. До того ж у змісті розмови з’являються номери PESEL, номери платіжних карток, адреси та інші конфіденційні дані.

Архітектура повинна вирішити цю проблему перед відправкою чого-небудь до зовнішньої моделі. Можливі підходи:

Self-hosting всього пайплайну (ASR + LLM локально): дані ніколи не залишають інфраструктуру компанії. Потрібне обладнання GPU або потужні CPU для faster-whisper.
Маскування PII після локальної транскрипції, перед аналізом LLM: ASR працює локально або в приватній хмарі, текст транскрипту фільтрується через NER (Named Entity Recognition), номери карток та PESEL замінюються токенами [CARD] / [PESEL], лише анонімізований текст потрапляє до моделі аналізу.
Згода на обробку + договір доручення з постачальником хмарних послуг: юридично допустимо, але вимагає DPIA для обробки біометричних даних, документування правової основи та механізму запиту на видалення даних (право на забуття включає записи та транскрипти).

AI Act класифікує біометричні системи, що ідентифікують осіб у реальному часі, як системи високого ризику. Voice bot, який лише розуміє мову та відповідає, не ідентифікує біометрично, тому не належить автоматично до цієї категорії. Однак інтеграція з базою даних договорів клієнтів та профілювання поведінки може змінити класифікацію. Перед впровадженням варто провести огляд з юристом, що спеціалізується на AI Act.

Асистент консультанта в реальному часі: як це працює технічно#

Агент ШІ, що підтримує консультанта під час розмови, — це архітектура кількох елементів, що працюють з малою затримкою:

STT (Speech-to-Text) у режимі стрімінгу конвертує голос клієнта в текст із затримкою 200-800 мс. Паралельно аналізує контекст розмови.
RAG за базою знань компанії шукає відповідні документи: процедури, FAQ, продуктові дані, історію клієнта з CRM.
LLM через роутер генерує пропозицію відповіді або підказку для консультанта. Консультант бачить підказку на екрані та вирішує, чи використовувати її, змінити чи пропустити.
Guardrails блокують пропозиції, що містять ціни без актуальної перевірки, зобов’язання, які перевищують компетенції рівня 1, або непевні факти.

Консультант залишається в центрі прийняття рішень. Асистент ШІ скорочує час пошуку інформації (з 30-60 секунд до 3-5 секунд), не замінює оцінку ситуації. Це важливо як для якості обслуговування, так і для юридичної відповідальності.

Затримка асистенції — критичний параметр. Підказка, видима через 8 секунд після запитання клієнта, марна в швидкій розмові. Реальна ціль — 2-3 секунди від останнього слова клієнта до появи пропозиції на екрані консультанта. Це досягається шляхом компресії контексту RAG (top-3 фрагменти, а не 20), швидкої моделі для генерації пропозицій та стрімінгу (stream) відповіді замість очікування повного тексту.

Voice bot: коли має сенс, коли ні#

Voice bot — це автоматизоване голосове обслуговування без консультанта. Клієнт говорить, бот розуміє, відповідає голосом та виконує дію. Відрізняється від традиційного IVR тим, що обробляє природну мову, а не меню touch-tone. Деталі пайплайну STT-намір-TTS, бюджету затримки та barge-in описує стаття про голосового агента замість IVR.

Критерій	Хороший кандидат для бота	Поганий кандидат для бота
Тип запиту	Стандартні, повторювані (статус замовлення, години роботи, зміна адреси)	Рекламації, що потребують оцінки ситуації
Кількість можливих відповідей	Обмежена, чітко визначена	Відкрита, залежить від контексту
Ставка помилки	Низька (помилка = незручність)	Висока (помилка = фінансова або юридична шкода)
Емоції клієнта	Нейтральні або транзакційні	Фрустрація, терміновість, загроза відносинам
Інтеграція систем	Проста (читання з бази)	Складна (багатокрокові затвердження)

Voice bot повинен мати вбудований human-handoff з низьким порогом. Клієнт повинен мати можливість сказати «З’єднайте мене з консультантом» у будь-який момент і потрапити до живої людини протягом 30 секунд. Бот, який ускладнює цей трансфер з метою штучного підвищення containment rate, порушує принципи належної практики та може наразити компанію на звинувачення у введенні клієнта в оману.

Повний аналіз того, коли голосовий агент реально скорочує обслуговування, а коли краще залишитися з консультантом, знайдете у статті Voice AI для компаній. Порівняння самого голосу з текстовим каналом описує стаття voice AI та чатбот.

Вимога AI Act щодо розкриття ідентичності ШІ: клієнт повинен знати на початку розмови, що спілкується з автоматичною системою. Видавання бота за людину прямо заборонено у європейських нормах, що діють з 2 серпня 2026 року.

Автоматизація нотаток та CRM після розмови#

Post-call automation — це найменш ризикований і найшвидший для впровадження шар. Транскрипт розмови потрапляє до моделі, яка генерує:

Короткий підсумок (3-5 речень) для поля «Нотатки» в CRM
Тема розмови з попередньо визначеної таксономії (рекламація, замовлення, технічне питання, відмова)
Сентимент клієнта (позитивний / нейтральний / негативний)
Список запропонованих follow-up дій

Консультант бачить згенерований чернетку та затверджує її одним кліком або виправляє. Замість того, щоб писати 3 хвилини з нуля, перевіряє за 30 секунд. Економія часу становить 70-85% на цю дію.

Інтеграція з CRM (Salesforce, Hubspot, Zoho, польські системи класу Optima) відбувається через API CRM або middleware n8n. Деталі архітектури інтеграції через n8n та безпосередньо через ERP та корпоративні системи описані в окремих статтях.

При цій автоматизації діє правило: модель генерує чернетку, людина затверджує. Автоматичний запис до CRM без перевірки консультантом не відбувається протягом перших 3-6 місяців. Після цього, коли показник помилок чернетки нижчий за 5%, можна поступово розширювати обсяг автозапису для повторюваних типів нотаток.

Аналіз якості та QA записів#

Традиційний QA кол-центру базується на прослуховуванні випадкової вибірки записів супервізором. При 1 супервізорі на 15 консультантів та 70 дзвінках на день на особу це кількасот розмов на тиждень, з яких можна прослухати максимум 20.

ШІ змінює цю модель. Замість випадкової вибірки кожна розмова транскрибується та оцінюється автоматично за такими критеріями:

Дотримання скрипту (чи були обов’язкові фрази: представлення, верифікація клієнта, питання про згоду на запис)
Час мовлення клієнта vs. консультанта (здорове співвідношення — приблизно 60/40 на користь клієнта в продажах)
Виявлені ключові слова, що вказують на ескалацію (вульгарні слова, відмова, загроза рекламацією)
Відповідність цін (модель перевіряє, чи названі ціни актуальні в базі знань)

Супервізор отримує пріоритетний список: розмови, які алгоритм оцінив найнижче, знаходяться нагорі для ручного прослуховування. Час QA той самий, покриття зростає з 1-2% до 100% фільтрації та 15-20% ручної перевірки позначених випадків.

Моніторинг та guardrails для голосової системи#

Voice bot та асистент консультанта потребують шару guardrails, адаптованого до специфіки голосу. Додаткові виклики порівняно з чатом:

Омофони та помилки ASR: модель чує «триста» і транскрибує як «300 zł» або навпаки. Guardrails повинні виявляти невідповідності між вимовленими числами та їх записом у транскрипті.
Багатоходовий контекст: клієнт може сказати «зробіть так, як минулого разу». Guardrails перевіряють, чи безпечно автоматично виконати посилання на попередню дію.
Темп розмови: у реальному часі немає часу на багаторазові виклики моделі. Structured output з готовими категоріями дій швидший і безпечніший за генерацію вільного тексту.
Human-gate для незворотних дій: анулювання замовлення, повернення коштів, зміна даних облікового запису. Жодна з цих дій не може бути виконана ботом без підтвердження людиною або принаймні подвійної верифікації особи.

Моніторинг голосової системи базується на тих самих шарах, що й моніторинг агента ШІ, описаний у статті про моніторинг агентів ШІ. Додаткові метрики, специфічні для голосу: WER (Word Error Rate) моделі ASR на тестових вибірках, transfer rate (скільки клієнтів просять консультанта до завершення розмови з ботом) та abandon rate (скільки клієнтів роз’єднуються до отримання відповіді).

Спробуйте наживо#

Опишіть свій сценарій кол-центру, а модель вкаже, який шар ШІ впровадити в першу чергу та які guardrails є критичними для вашого обсягу (playground: PII масковані, нульове збереження):

▶Оберіть архітектуру ШІ для свого кол-центруsandbox · reasoning

Оберіть архітектуру ШІ для свого кол-центру

PII масковано · без збереження

FAQ#

Чи повинен voice bot представлятися як ШІ?#

Так, з 2 серпня 2026 року діє вимога розкриття ідентичності автоматичної системи на початку кожної взаємодії з системою ШІ. Клієнт повинен знати, що розмовляє з ботом, перш ніж почне надавати будь-які дані. Відсутність цього розкриття є порушенням AI Act, що підлягає санкціям. Це стосується як voice botів, так і чатботів. Деталі обов’язків компаній описує стаття AI Act та GDPR 2026.

Як захистити дані клієнтів при транскрипції розмов?#

Голосові записи є біометричними даними та потребують правової основи для обробки. Безпечна архітектура — це або self-hosting моделі ASR, або маскування PII після локальної транскрипції перед відправкою тексту до зовнішнього LLM. Номери платіжних карток та PESEL повинні виявлятися через NER та замінюватися токенами перед аналізом. Для обробки біометричних даних потрібно провести DPIA та впровадити процедуру виконання запиту на видалення записів.

Скільки часу займає впровадження ШІ в кол-центрі?#

Транскрипція post-call з автоматичними нотатками CRM — це реально 4-8 тижнів від старту проекту до запуску в обмеженому обсязі. Асистент консультанта в реальному часі потребує 8-16 тижнів через інтеграцію стрімінгового ASR та калібрування затримки. Voice bot для стандартних запитів — це 12-20 тижнів з урахуванням тестування з реальними клієнтами в режимі shadow mode. Оцінку готовності вашої організації до впровадження можна знайти в інструменті оцінка готовності.

Яка реальна вартість ШІ в кол-центрі?#

Залежить від обраного шару та масштабу. Транскрипція post-call для 300 дзвінків на день при локальній моделі (faster-whisper на CPU) — це вартість інфраструктури в кількасот злотих на місяць, без оплат per-call. Асистент консультанта потребує більше обчислювальних потужностей для real-time inference. Voice bot генерує витрати на інтеграцію та підтримку, але при відповідному containment rate (50-70% для стандартних запитів) може окупитися за кілька місяців. Реальний кошторис для вашого обсягу згенерує калькулятор ROI або калькулятор inference.

Чи замінить асистент ШІ консультантів?#

Ні, у найближчі 2-3 роки для складних запитів. Асистент ШІ підвищує пропускну здатність консультанта та скорочує час обслуговування, що дозволяє обслужити більше клієнтів тими самими ресурсами або зберегти ту саму пропускну здатність при меншому зростанні штату. Voice bot бере на себе повторювані запити, які не потребують оцінки ситуації. Рекламації, спори, кризові ситуації та клієнти в складному емоційному стані все ще потребують людини з міжособистісними навичками. Межу між тим, що автоматизувати, а що залишити людям, описує стаття про роль людини в петлі ШІ.

Транскрипція розмов: фундамент усього іншого#

Self-hosting всього пайплайну (ASR + LLM локально): дані ніколи не залишають інфраструктуру компанії. Потрібне обладнання GPU або потужні CPU для faster-whisper.
Маскування PII після локальної транскрипції, перед аналізом LLM: ASR працює локально або в приватній хмарі, текст транскрипту фільтрується через NER (Named Entity Recognition), номери карток та PESEL замінюються токенами [CARD] / [PESEL], лише анонімізований текст потрапляє до моделі аналізу.
Згода на обробку + договір доручення з постачальником хмарних послуг: юридично допустимо, але вимагає DPIA для обробки біометричних даних, документування правової основи та механізму запиту на видалення даних (право на забуття включає записи та транскрипти).

Асистент консультанта в реальному часі: як це працює технічно#

STT (Speech-to-Text) у режимі стрімінгу конвертує голос клієнта в текст із затримкою 200-800 мс. Паралельно аналізує контекст розмови.
RAG за базою знань компанії шукає відповідні документи: процедури, FAQ, продуктові дані, історію клієнта з CRM.
LLM через роутер генерує пропозицію відповіді або підказку для консультанта. Консультант бачить підказку на екрані та вирішує, чи використовувати її, змінити чи пропустити.
Guardrails блокують пропозиції, що містять ціни без актуальної перевірки, зобов’язання, які перевищують компетенції рівня 1, або непевні факти.

Voice bot: коли має сенс, коли ні#

Критерій	Хороший кандидат для бота	Поганий кандидат для бота
Тип запиту	Стандартні, повторювані (статус замовлення, години роботи, зміна адреси)	Рекламації, що потребують оцінки ситуації
Кількість можливих відповідей	Обмежена, чітко визначена	Відкрита, залежить від контексту
Ставка помилки	Низька (помилка = незручність)	Висока (помилка = фінансова або юридична шкода)
Емоції клієнта	Нейтральні або транзакційні	Фрустрація, терміновість, загроза відносинам
Інтеграція систем	Проста (читання з бази)	Складна (багатокрокові затвердження)

Автоматизація нотаток та CRM після розмови#

Короткий підсумок (3-5 речень) для поля «Нотатки» в CRM
Тема розмови з попередньо визначеної таксономії (рекламація, замовлення, технічне питання, відмова)
Сентимент клієнта (позитивний / нейтральний / негативний)
Список запропонованих follow-up дій

Аналіз якості та QA записів#

Дотримання скрипту (чи були обов’язкові фрази: представлення, верифікація клієнта, питання про згоду на запис)
Час мовлення клієнта vs. консультанта (здорове співвідношення — приблизно 60/40 на користь клієнта в продажах)
Виявлені ключові слова, що вказують на ескалацію (вульгарні слова, відмова, загроза рекламацією)
Відповідність цін (модель перевіряє, чи названі ціни актуальні в базі знань)

Моніторинг та guardrails для голосової системи#

Омофони та помилки ASR: модель чує «триста» і транскрибує як «300 zł» або навпаки. Guardrails повинні виявляти невідповідності між вимовленими числами та їх записом у транскрипті.
Багатоходовий контекст: клієнт може сказати «зробіть так, як минулого разу». Guardrails перевіряють, чи безпечно автоматично виконати посилання на попередню дію.
Темп розмови: у реальному часі немає часу на багаторазові виклики моделі. Structured output з готовими категоріями дій швидший і безпечніший за генерацію вільного тексту.
Human-gate для незворотних дій: анулювання замовлення, повернення коштів, зміна даних облікового запису. Жодна з цих дій не може бути виконана ботом без підтвердження людиною або принаймні подвійної верифікації особи.

Спробуйте наживо#

▶Оберіть архітектуру ШІ для свого кол-центруsandbox · reasoning

Оберіть архітектуру ШІ для свого кол-центру

PII масковано · без збереження

ШІ в кол-центрі: голос, транскрипція, асистент агента

Транскрипція розмов: фундамент усього іншого#

PII в голосових даних: GDPR та AI Act з першої хвилини#

Асистент консультанта в реальному часі: як це працює технічно#

Voice bot: коли має сенс, коли ні#

Автоматизація нотаток та CRM після розмови#

Аналіз якості та QA записів#

Моніторинг та guardrails для голосової системи#

Спробуйте наживо#

FAQ#

Чи повинен voice bot представлятися як ШІ?#

Як захистити дані клієнтів при транскрипції розмов?#

Скільки часу займає впровадження ШІ в кол-центрі?#

Яка реальна вартість ШІ в кол-центрі?#

Чи замінить асистент ШІ консультантів?#

ШІ в кол-центрі: голос, транскрипція, асистент агента

Транскрипція розмов: фундамент усього іншого#

PII в голосових даних: GDPR та AI Act з першої хвилини#

Асистент консультанта в реальному часі: як це працює технічно#

Voice bot: коли має сенс, коли ні#

Автоматизація нотаток та CRM після розмови#

Аналіз якості та QA записів#

Моніторинг та guardrails для голосової системи#

Спробуйте наживо#

FAQ#

Чи повинен voice bot представлятися як ШІ?#

Як захистити дані клієнтів при транскрипції розмов?#

Скільки часу займає впровадження ШІ в кол-центрі?#

Яка реальна вартість ШІ в кол-центрі?#

Чи замінить асистент ШІ консультантів?#