Вартість утримання агента ШІ: TCO та операції

Вартість утримання агента ШІ складається з п’яти категорій: вартість інференції (токени за запит помножені на обсяг), інфраструктура (сервер, векторна база даних, кеш), утримання бази знань (реіндексація, версіонування), нагляд і моніторинг (інженерний час, алерти, golden set) та відповідність (логи GDPR, аудиторський слід AI Act). Для типової системи обслуговування клієнтів з обсягом 5 000 запитів на місяць загальна операційна вартість становить від 800 до 4 500 злотих на місяць, залежно від моделі та архітектури.

Компанія замовляє впровадження агента ШІ. Отримує кошторис проєкту: 30 000–80 000 злотих. Підписує договір. Агент запускається. Через шість місяців надходить запитання з фінансового відділу: «Скільки цей агент коштує на місяць?» Ніхто не має готової відповіді. Рахунки за хмару зростали поступово. Час інженера, витрачений на оновлення бази знань, не враховувався окремо. Моніторинг був частиною загального ІТ-проєкту.

Це типовий сценарій, а не виняток. TCO (Total Cost of Ownership) агента ШІ рідко розраховується перед впровадженням, а майже ніколи не вимірюється правильно протягом перших двох кварталів. Нижче описано, як це змінити.

П’ять категорій операційних витрат агента ШІ#

TCO агента ШІ не зводиться до рахунку за API. Кожна з наведених нижче категорій є окремим центром витрат з власною динамікою зростання.

Категорія	Що входить до складу	Динаміка
Інференція (токени)	Вартість викликів LLM за запит помножена на обсяг	Лінійна або суперлінійна при зростаючій складності промптів
Інфраструктура	Сервер, векторна база даних, кеш, мережа	Східчаста (стрибки при порогових значеннях обсягу)
Утримання бази знань	Реіндексація, версіонування, аудит документів	Постійна щомісячна, з піками при змінах продуктів
Моніторинг і нагляд	Інженерний час, golden set тести, алерти, human-oversight	Постійна, зменшується, коли процеси дозрівають
Відповідність і безпека	Логи з TTL, аудиторський слід, огляди guardrails, GDPR	Передбачувана постійна, зростає при аудитах регулятора

Найпоширеніша помилка в розрахунках TCO — це врахування лише вартості токенів. Це зазвичай 20–40% загальної операційної вартості. Решта — це інфраструктура та робота людей, і саме ця частина визначає рентабельність у річній перспективі.

Вартість інференції: як рахувати токени при різних архітектурах#

Інференція — це вартість виклику мовної моделі. Залежить від трьох змінних: кількості запитів, довжини промпту та ціни моделі.

Довжина промпту в системі RAG складається з: system prompt (постійний, зазвичай 200–600 токенів), контекст, отриманий з бази (top-k фрагменти, зазвичай 800–2 000 токенів), історія розмови (зростає протягом бесіди) та власне запит користувача. Для типової відповіді в агенті обслуговування клієнтів вхідний промпт становить 1 200–3 000 токенів, вихідний — 200–600 токенів.

Місячний розрахунок для 5 000 запитів при моделі API:

Вхідний промпт: 5 000 × 2 000 токенів = 10 млн вхідних токенів
Вихід: 5 000 × 400 токенів = 2 млн вихідних токенів
При ставці 2 USD / 1M вхідних + 6 USD / 1M вихідних: 10 × 2 + 2 × 6 = 32 USD на місяць за середню модель
При преміум-моделі (8 USD / 1M вхідних, 24 USD / 1M вихідних): 128 USD

Різниця між економічною та преміум-моделлю при тому ж обсязі — чотириразова. Стаття про оптимізацію вартості токенів описує техніки (кешування промптів, роутер моделей, скорочення контексту), які знижують цю вартість на 30–60% без втрати якості.

При self-hosting вартість за токен знижується до нуля (платите за GPU, а не за виклик), але з’являються витрати на сервер. При 5 000 запитів на місяць вартість токенів у хмарі настільки низька (порядку кількох десятків доларів на місяць), що self-hosting не окуповується — фіксована вартість GPU-сервера перевищує рахунок за API. Поріг рентабельності self-hosting зазвичай виникає лише при обсязі понад 20 000–50 000 запитів на місяць або раніше, коли вимоги data-residency/GDPR змушують обробляти дані локально незалежно від економіки.

Інфраструктура: за що платите, крім токенів#

Інфраструктура агента ШІ включає кілька компонентів, які рідко враховуються в перших кошторисах.

Векторна база даних зберігає ембедінги бази знань. Вартість залежить від кількості векторів та необхідної доступності. Для бази з 10 000 документів (типова база знань середньої компанії) вартість керованого Qdrant або Pinecone становить 30–80 USD на місяць. Self-hosted Qdrant на виділеному сервері усуває цю вартість, але вимагає утримання інстансу.

Кеш для результатів семантичного пошуку та промптів — це разова вартість впровадження та низька операційна вартість (Redis або Valkey). При добре спроєктованому кеші точність сягає 25–40% для повторюваних запитів, що безпосередньо знижує рахунок за інференцію.

Сервер додатків для API агента (Python/FastAPI або Node) при обсязі до 50 000 запитів на місяць обслуговується VPS за 60–150 USD на місяць або serverless з оплатою за запит.

Моніторинг і observability (Prometheus, Grafana або еквівалент) — це додаткові 20–50 USD на місяць у хмарі або налаштування на власній інфраструктурі. Детальний опис архітектури моніторингу можна знайти в статті про моніторинг якості агента ШІ.

Загальна вартість інфраструктури для агента з обсягом 5 000–20 000 запитів на місяць реально становить 150–400 USD на місяць при хмарних рішеннях та 80–200 USD при self-hosting (без амортизації сервера).

Утримання бази знань: прихована вартість, яка зростає з часом#

База знань агента застаріває. Ціни змінюються. Процедури оновлюються. Нові продукти з’являються в асортименті. Кожна така зміна вимагає оновлення документів та реіндексації векторної бази.

Вартість реіндексації складається з двох компонентів: вартості обчислення нових ембедінгів (при моделі API це вартість токенів; при локальному BGE-M3 — це час GPU) та часу роботи людини, яка готує, перевіряє та публікує оновлені документи.

Для компанії, яка змінює асортимент щоквартально та має базу з 500–2 000 документів, реіндексація коштує 2–4 години роботи на місяць плюс вартість ембедінгів (зазвичай 5–20 USD за повну реіндексацію при API, нуль при локальній моделі). Це звучить небагато, але при поганій організації документів час перевірки зростає до 10–20 годин.

Стаття про оновлення знань RAG та версіонування описує, як побудувати пайплайн інкрементальної реіндексації, який знижує цю вартість на 60–70% шляхом оновлення лише змінених фрагментів, а не всієї бази.

Моніторинг і людський нагляд: вартість, яка не зникає#

Моніторинг агента ШІ — це не разове впровадження. Це постійна операційна вартість, яка має дві складові: автоматичну (алерти, регресійні тести) та людську (огляди ескалацій, аудит якості, реакція на інциденти).

Автоматична частина є відносно дешевою: раз налаштовані алерти та golden set тести запускаються самі. Вартість — це кілька годин на місяць на огляд результатів та реагування на аномалії.

Людська частина залежить від масштабу та сфери застосування. Для агента обслуговування клієнтів з обсягом 200 звернень на день типовий час нагляду становить 3–6 годин на тиждень: огляд ескалацій, перевірка вибірки відповідей, оновлення golden set при виявлених помилках. При 2 000 зверненнях на день це 15–25 годин на тиждень для виділеної людини.

Human-oversight для систем, що підпадають під AI Act, не є опціональним. Стаття про безпеку агентів ШІ описує вимоги до нагляду та як документувати аудиторський слід, необхідний регулятору.

Витрати на відповідність і безпеку#

Відповідність вимогам GDPR та AI Act генерує витрати, які багато хто з керівників ігнорує в перших розрахунках TCO.

Логи з TTL: зберігання операційних логів з відповідним терміном зберігання та механізмом видалення даних на вимогу (право на забуття) вимагає інфраструктури та процесів. Вартість — це в основному інженерний час на впровадження та щомісячні огляди.

DPIA (Data Protection Impact Assessment) для агентів, що обробляють персональні дані, — це разова вартість при впровадженні (4–16 годин роботи з юристом або спеціалістом з GDPR) та оновлення при кожній суттєвій зміні архітектури. Деталі обов’язків описує стаття про AI Act та GDPR 2026.

Тести на проникнення guardrails для агентів з доступом до зовнішніх систем (CRM, ERP, бази даних) коштують 2–4 години щокварталу для внутрішнього огляду або зовнішнього аудиту при високому ризику.

Загальна вартість відповідності для типової B2B-системи становить 500–2 000 злотих на рік у людино-годинах, плюс можливі витрати на зовнішні огляди.

Бенчмарк витрат: три сценарії впроваджень#

Нижче наведено три сценарії, що показують реальний щомісячний TCO для різних масштабів впровадження. Цифри передбачають хмарну модель (API) з керованою інфраструктурою та 8 людино-годин нагляду на місяць.

Складові	Агент FAQ (2 000 зап./міс.)	Агент обслуговування клієнтів (10 000 зап./міс.)	Багатокроковий агент (5 000 зап./міс.)
Інференція (токени)	15–40 злотих	100–300 злотих	200–600 злотих
Інфраструктура	150–300 злотих	300–600 злотих	400–800 злотих
Утримання бази знань	200–400 злотих	400–800 злотих	600–1 200 злотих
Моніторинг і нагляд	300–600 злотих	600–1 200 злотих	800–1 600 злотих
Відповідність	80–150 злотих	150–300 злотих	200–400 злотих
TCO разом	745–1 490 злотих	1 550–3 200 злотих	2 200–4 600 злотих

Багатокроковий агент має вищу вартість інференції, ніж агент FAQ при меншому обсязі, тому що кожен крок циклу ReAct генерує окремий виклик LLM. Архітектура багатокрокового агента впливає на TCO більше, ніж обсяг запитів.

Як знизити TCO без зниження якості#

Три архітектурні зміни, які мають найбільший вплив на TCO:

Роутер моделей спрямовує прості запити (класифікація, FAQ) до дешевшої моделі, а складні (багатокрокові, аналітичні) — до дорожчої. Зниження вартості інференції зазвичай становить 30–55% при правильній конфігурації. Деталі побудови роутера описані в статті про міграцію з API на власну модель ШІ.

Кешування промптів для постійних фрагментів промпту (system prompt, заголовки RAG, інструкції guardrails) знижує вартість токенів на 20–40% при обсягах понад 1 000 запитів на день. Більшість постачальників API підтримують цю функцію нативно з 2025 року.

Скорочення контексту RAG через кращий reranking та фільтрацію top-k фрагментів зменшує розмір промпту без втрати якості відповідей. Замість передачі 5 фрагментів по 500 токенів точніший reranker обирає 2 найкращі. Стаття про оцінку якості RAG описує, як вимірювати retrieval precision і коли інвестиція в кращий reranker окупається в зниженні вартості токенів.

Спробуйте наживо#

Опишіть свій випадок, а модель розрахує орієнтовний TCO та вкаже, де найбільший потенціал економії (playground: PII маскуються, нульова ретенція):

▶Оцініть TCO свого агента ШІsandbox · reasoning

FAQ#

Скільки коштує утримання агента ШІ на місяць для малої компанії?#

Для малої компанії з обсягом 1 000–3 000 запитів на місяць та вузьким спектром завдань (FAQ, статуси, проста класифікація) реальна операційна вартість становить 600–1 800 злотих на місяць. До цієї суми входять переважно інфраструктура (150–300 злотих) та час нагляду (3–5 годин на місяць). Вартість токенів при такому обсязі є незначною. Розрахунок для конкретного обсягу надає калькулятор ROI.

Що входить до TCO агента ШІ, чого немає у вартості впровадження?#

Вартість впровадження зазвичай покриває: проєктування архітектури, побудову агента, початкове наповнення бази знань та тестування. Не покриває: щомісячну вартість інференції (токенів), утримання інфраструктури після передачі, регулярні оновлення бази знань, час нагляду та моніторингу, а також витрати на відповідність (DPIA, логи GDPR). Ці елементи формують TCO та визначають рентабельність у перспективі 12–24 місяців. Оцінку перед прийняттям рішення про впровадження полегшує інструмент оцінки готовності.

Коли self-hosting агента ШІ дешевший за хмарне API?#

Self-hosting знижує вартість за токен до нуля, але додає витрати: сервер (GPU або потужний CPU), утримання моделі та інфраструктури, оновлення безпеки. Поріг рентабельності зазвичай виникає при обсязі понад 20 000–50 000 запитів на місяць або коли вимоги data-residency та GDPR змушують використовувати self-hosting незалежно від економіки. При менших обсягах API є дешевшим у цілому, навіть якщо вартість за токен вища. Деталі аналізу порогу описані в статті про міграцію з API на власну модель.

Як контролювати вартість токенів, коли обсяг зростає швидше, ніж планувалося?#

Три механізми контролю: (1) добовий ліміт на користувача або endpoint у роутері LLM блокує неконтрольоване зростання витрат до спрацьовування алерту; (2) роутер моделей автоматично спрямовує прості запити до дешевшої моделі, коли обсяг перевищує поріг; (3) семантичний кеш для повторюваних запитів знижує реальну кількість викликів на 20–40%. Без цих механізмів раптове зростання обсягу (вірусний трафік, інтеграція з новим каналом) може подвоїти місячний рахунок за тиждень. Стаття про план впровадження ШІ крок за кроком описує, як вбудувати ці запобіжники з першого дня.

Як AI Act впливає на операційні витрати агента ШІ?#

AI Act додає витрати переважно в трьох сферах: документація та DPIA при впровадженні та оновленнях, аудиторський слід (логи рішень з ретенцією) та вимога human-oversight для систем високого ризику. Для більшості B2B-агентів (обслуговування клієнтів, FAQ, класифікація) вимоги помірні. Для агентів у секторах високого ризику (охорона здоров’я, фінанси, HR) витрати на відповідність зростають на 20–40% від загального TCO. Детальний розподіл обов’язків за секторами описано в статті про AI Act та системи високого ризику.

П’ять категорій операційних витрат агента ШІ#

Категорія	Що входить до складу	Динаміка
Інференція (токени)	Вартість викликів LLM за запит помножена на обсяг	Лінійна або суперлінійна при зростаючій складності промптів
Інфраструктура	Сервер, векторна база даних, кеш, мережа	Східчаста (стрибки при порогових значеннях обсягу)
Утримання бази знань	Реіндексація, версіонування, аудит документів	Постійна щомісячна, з піками при змінах продуктів
Моніторинг і нагляд	Інженерний час, golden set тести, алерти, human-oversight	Постійна, зменшується, коли процеси дозрівають
Відповідність і безпека	Логи з TTL, аудиторський слід, огляди guardrails, GDPR	Передбачувана постійна, зростає при аудитах регулятора

Вартість інференції: як рахувати токени при різних архітектурах#

Місячний розрахунок для 5 000 запитів при моделі API:

Вхідний промпт: 5 000 × 2 000 токенів = 10 млн вхідних токенів
Вихід: 5 000 × 400 токенів = 2 млн вихідних токенів
При ставці 2 USD / 1M вхідних + 6 USD / 1M вихідних: 10 × 2 + 2 × 6 = 32 USD на місяць за середню модель
При преміум-моделі (8 USD / 1M вхідних, 24 USD / 1M вихідних): 128 USD

Інфраструктура: за що платите, крім токенів#

Інфраструктура агента ШІ включає кілька компонентів, які рідко враховуються в перших кошторисах.

Утримання бази знань: прихована вартість, яка зростає з часом#

Моніторинг і людський нагляд: вартість, яка не зникає#

Витрати на відповідність і безпеку#

Відповідність вимогам GDPR та AI Act генерує витрати, які багато хто з керівників ігнорує в перших розрахунках TCO.

Бенчмарк витрат: три сценарії впроваджень#

Складові	Агент FAQ (2 000 зап./міс.)	Агент обслуговування клієнтів (10 000 зап./міс.)	Багатокроковий агент (5 000 зап./міс.)
Інференція (токени)	15–40 злотих	100–300 злотих	200–600 злотих
Інфраструктура	150–300 злотих	300–600 злотих	400–800 злотих
Утримання бази знань	200–400 злотих	400–800 злотих	600–1 200 злотих
Моніторинг і нагляд	300–600 злотих	600–1 200 злотих	800–1 600 злотих
Відповідність	80–150 злотих	150–300 злотих	200–400 злотих
TCO разом	745–1 490 злотих	1 550–3 200 злотих	2 200–4 600 злотих

Як знизити TCO без зниження якості#

Три архітектурні зміни, які мають найбільший вплив на TCO:

Спробуйте наживо#

▶Оцініть TCO свого агента ШІsandbox · reasoning