Різниця між чатботом та агентом — це спроможність діяти: агент не завершує роботу на відповіді, а на зміні стану — відправленому листі, оновленому записі, обробленому ліді. Це велика цінність, але й відповідальність. Спроможність діяти без меж — це ризик, тому межі проектуємо разом зі спроможністю.
Три стовпи безпеки агента
- Allow-список інструментів — агент має каталог дозволених інструментів (навігація, пошук, бронювання), а не довільний доступ до системи. Чого немає в списку, того він не зробить.
- Human-gate — незворотні дії (відправка, платіж, зміна даних) потребують серверного токена підтвердження, підписаного HMAC. Сама декларація моделі недостатня — потрібне «так» людини там, де не можна відкотити дію.
- Повний лог — кожен крок (думка → інструмент → результат) логується, тому постфактум можна відтворити, що і чому зробив агент. Без сліду немає відповідальності.
Чим відрізняється ризик агента від чатбота
| Критерій | Чатбот | Агент |
|---|---|---|
| Що робить | повертає текст | змінює стан |
| Наслідок помилки | некоректна відповідь | некоректна дія |
| Необхідні бар’єри | guardrails виходу | + allow-список + human-gate |
| Слід | діалог | лог кожного кроку |
| Нагляд | перевірка відповідей | підтвердження дій |
Саме тому агентів не впроваджують «наосліп». Межу між розмовою та виконанням ми також описуємо у статті agent vs chatbot.
Поступове послаблення нагляду
Не починаємо з повної автономії. Агент стартує з жорстким human-gate (підтверджуєш майже все), а в міру накопичення доказів довіри — лог чистий, рішення влучні — послаблюємо обмеження на перевірених шляхах. Такий самий підхід, як і з prompt injection: безпека вбудована, а не додана постфактум.
Спробуй наживо
Агента запускаємо у безпечному пісочниці з прозорим слідом (playground: PII маскуються, нульова ретенція). Попроси модель розписати кроки завдання:
FAQ
#Чи безпечний агент ШІ, якщо діє самостійно?
Безпечний, якщо має чіткі межі: allow-список інструментів, human-gate на незворотних діях та лог кожного кроку. Спроможність діяти без цих бар’єрів — це ризик, тому проектуємо їх від початку. Агент діє автономно у вузькому, чітко визначеному обсязі, а не «взагалі».
Що таке human-gate?
#Це точка, в якій незворотна дія (відправка, платіж, зміна запису) потребує підтвердження людини — технічно серверного токена, підписаного HMAC, а не просто рішення моделі. Завдяки цьому, навіть якщо агент «вважає», що потрібно щось зробити, він не виконає дію без зеленого світла.
З чого почати роботу з агентами?
З одного вузького, повторюваного процесу з жорстким наглядом — підтверджуєш майже все, лог повний. Коли доказів довіри стає більше, послаблюєш обмеження на перевірених шляхах. Так безпечно передаєш ШІ спроможність діяти, крок за кроком.