У 2023 році гучний аудит виявив, що комерційна модель оцінки ризику рецидиву помилково класифікувала темношкірих осіб як загрозливих з удвічі більшою частотою, ніж білих, за ідентичних кримінальних профілів. Алгоритм був технічно коректним з точки зору загальної точності. Проблема лежала глибше: у даних, які зібрала та описала людська історія, перш ніж хтось написав перший рядок коду.
Це не приклад з далекого минулого, і не проблема виключно великих моделей. Кожна компанія, яка сьогодні впроваджує LLM, RAG або агента ШІ, оперує даними, які мають історію. Ця історія залишає сліди.
Звідки береться упередженість у системах ШІ
Упередженість має кілька незалежних джерел, які можуть діяти разом або окремо.
Історичні дані. Модель вчиться кореляцій, які існували в минулому. Якщо протягом десятиліття на певну посаду обирали кандидатів з однієї демографічної групи, модель вважатиме ознаки цієї групи сигналом успіху. Не тому, що вона расистська. А тому, що оптимізує мету, визначену історією.
Помилка вибірки. Дані, зібрані в умовах зручності або доступності, не репрезентують популяцію, на якій система працюватиме. Модель, натренована на картках пацієнтів великих академічних лікарень, може погано працювати в регіональних поліклініках, де демографічний профіль та доступ до спеціалістів відрізняються.
Помилка інтерпретації та етикетування. Етикетки в навчальному наборі даних створює людина. Якщо особа, яка етикетує дані, систематично віддає перевагу певному типу відповідей, ця перевага входить у модель як сигнал істини.
Упередженість представлення у просторі ембедінгів. Мовні моделі та моделі ембедінгів (як BGE-M3) вчаться на корпусах тексту, які відображають нестачу представництва певних мов, діалектів, соціальних груп. Результат: семантична подібність, обчислена моделлю, буває асиметричною для груп, недостатньо представлених у тренувальних даних.
Упередженість у базі знань RAG. Система RAG настільки добра, наскільки добра база, яку вона індексує. Якщо база містить виключно документи з одного періоду, одного автора або однієї точки зору, відповіді відображатимуть цю вузькість навіть за правильної роботи retrieval.
Два види шкоди: вимірювана та невимірювана
Перш ніж перейти до методів виявлення, варто розрізнити, що ми шукаємо.
Вимірювана упередженість проявляється у розбіжності метрик між групами. Класифікатор, який має 90% точності для групи A і 72% для групи B, є упередженим вимірювано. Інструменти, такі як Fairlearn (Python), fairmodels (R) або вбудовані метрики Amazon SageMaker Clarify, дозволяють виміряти цю розбіжність числово.
Невимірювана упередженість складніша. Вона стосується вибору запитань: що взагалі вимірюємо, чиї потреби визначають «правильну» відповідь, які сценарії ми визнали крайовими та пропустили в тестах. Цей вид упередженості вимагає різноманітних команд, які на етапі проєктування ставлять запитання, яких однорідна команда не поставить.
Обидва види вимагають активної роботи. Вони не зникають із впровадженням нової базової моделі.
Як вимірювати упередженість на практиці
Нижче наведено шаблон аудиту, який ми застосовуємо перед промисловим впровадженням:
| Етап | Що вимірюємо | Інструменти / методи |
|---|---|---|
| Аналіз даних | Демографічний розподіл вибірки, прогалини в даних за групами | описова статистика, теплові карти кореляцій |
| Оцінка моделі | Точність, recall, F1 за підгрупами | Fairlearn, метрики за сегментами |
| Аналіз чутливості | Чи змінюється результат після видалення захищених атрибутів | counterfactual fairness, SHAP values |
| Тест на синтетичних даних | Чи ставиться модель до ідентичних профілів по-різному при зміні однієї ознаки | парні тести (paired tests) |
| Аудит ембедінгів | Чи симетрично розташовані представлення груп у векторному просторі | WEAT (Word Embedding Association Test), семантичні аналогії |
| Моніторинг промисловий | Чи зростає розбіжність метрик з часом | журнали рішень, дашборд за сегментами |
Загальна точність моделі — недостатній показник. Модель може мати 94% точності загалом і водночас систематично шкодити 15% користувачів.
Заходи протидії: до моделі, у моделі, після моделі
Інтервенції діють на різних рівнях. Не існує одного методу, який вирішує всі джерела упередженості.
До моделі: дані. Диверсифікація навчальних наборів — необхідна відправна точка, але недостатня. Більший набір даних з тими самими історичними нерівностями лише посилює ці нерівності з більшою статистичною впевненістю. Диверсифікація має бути усвідомленою: які групи недостатньо представлені, які сценарії відсутні, чи були етикетки присвоєні послідовно.
У базах RAG: перевірте тематичне покриття, дату документів, коло авторів та перспектив. База знань, яка не оновлювалася з 2021 року, не враховує 30 місяців змін у законодавстві та технологіях. Див. статтю оновлення знань RAG.
У моделі: проєктування з урахуванням справедливості. Регулярне тестування класифікатора на наборах з контрольованим демографічним розподілом. Крос-валідація з різноманітними валідаційними наборами. У системах з промптуванням: системні тести, що перевіряють, чи змінює відповідь зміна однієї ознаки (ім’я, стать) у спосіб, не обґрунтований змістовно.
Guardrails можуть блокувати відповіді, що ґрунтуються безпосередньо на захищених атрибутах. Але guardrails діють на рівні виходу, не усувають упередженість зі шару висновування. Це захисна сітка, а не фундаментальне рішення.
Після моделі: нагляд та журнали. Кожне рішення системи у сферах високого ризику має бути залоговане з достатнім контекстом для верифікації. Йдеться не про зберігання персональних даних, а про аудиторський слід: яку відповідь видала система, на основі яких вхідних даних, у якій версії моделі. Без цього неможливо довести, що упередженість не виникла, а у разі інциденту — локалізувати її.
Людський нагляд за незворотними рішеннями — це не бюрократія. Це єдиний механізм корекції, коли упередженість пробивається через усі попередні захисні шари. Див. шаблон human-handoff у словнику.
AI Act та упередженість: що стало законом у 2026 році
#AI Act впроваджується поетапно, але ключові обов’язки для систем високого ризику діють вже у 2026 році. Категорії високого ризику, де упередженість прямо регулюється, включають:
- рекрутинг та оцінку працівників
- оцінку кредитоспроможності та страхового ризику
- рішення в освіті та доступі до послуг
- судочинство та оцінку ризику рецидиву
- біометричні системи
Для цих систем AI Act вимагає технічної документації, обов’язкового DPIA, реєстру логів з мітками часу та версіями моделі, механізму пояснюваності рішень та можливості оскарження рішення особою, якої воно стосується.
Детальні обов’язки описано у статті AI Act системи високого ризику.
Варто зазначити: навіть системи поза категорією високого ризику підпадають під загальні принципи прозорості. Якщо система оцінює людей або їхню поведінку, обов’язок пояснення цієї оцінки існує незалежно від класифікації ризику.
Упередженість у системах RAG: специфіка, про яку рідко говорять
#Класична дискусія про алгоритмічну упередженість стосується класифікаційних моделей. У 2026 році більшість бізнес-впроваджень — це системи RAG, де модель генерує відповіді на основі отриманих документів. Тут механізм упередженості інший.
Упередженість retrieval. Система retrieval вирішує, які документи є «найбільш релевантними». Якщо векторна подібність асиметрична для певних груп або тем (бо тренувальні дані ембедінгів були незбалансовані), деякі перспективи будуть систематично рідше отримуватися, навіть якщо вони записані в базі.
Упередженість у ієрархії джерел. Система з пріоритезацією джерел (наприклад, внутрішні документи перед зовнішніми) може віддавати перевагу перспективі організації, коли запитання стосується спірних або юридично суперечливих питань.
Ефект посилення через генерацію. Генеративна модель може посилювати упередженість, отриману з документів, додаючи мовну впевненість до непевних тверджень. Твердження «зазвичай» з вихідного документа може стати твердженням без уточнень у відповіді.
Засіб протидії: регулярні тести запитаннями калібрування (калібрувальні запити), що перевіряють, чи відповідає система симетрично на запити щодо порівнянних груп. Журнали retrieval, які показують, які документи були отримані для кожної відповіді. Див. моніторинг якості агента ШІ.
Прозорість та її межі
Алгоритмічна прозорість є необхідною умовою контролю упередженості, але недостатньою. Ми знаємо системи, які публікують документацію датасету та результати аудиту fairness, але все одно систематично шкодять певним групам, оскільки метрики справедливості, які вони обрали, не вимірюють того, що насправді важливо в їхньому контексті.
Прозорість цінна, коли вона повна: розкриває не лише результати тестів, а й те, які тести проводилися і які були пропущені. Документація, яка описує модель в тестових умовах, але не інформує про розподіл промислових даних та дрейф моделі з часом, є вибірковою прозорістю.
Для компаній, що впроваджують готові моделі зовнішніх постачальників: запитуйте документацію тренувального датасету, методологію аудиту bias, результати для підгруп та процедуру повідомлення та виправлення виявлених помилок. Якщо документація відсутня або не відповідає на ці запитання, впровадження у сфері високого ризику є необґрунтованим.
Інструменти для самооцінки готовності: оцінка готовності ШІ та blueprint агента.
Спробуйте наживо
Надайте опис системи прийняття рішень (наприклад, класифікатор заявок, кредитний скоринг, система рекомендацій HR) і отримайте список областей ризику упередженості та конкретні контрольні запитання для аудиту (середовище playground: PII маскуються, нульове зберігання):
FAQ
#Чи завжди алгоритмічна упередженість виникає через погані дані?
Ні. Дані — це одне джерело, але упередженість може також виникати з вибору оптимізаційної мети (що модель має максимізувати), з визначення «правильної» відповіді, заданої проєктувальниками, з пропуску певних сценаріїв у тестах або з того, які популяції були визнані референтними при проєктуванні. Дані низької якості погіршують проблему, але висока якість даних не гарантує відсутності системної упередженості.
Як AI Act ставиться до алгоритмічної упередженості?
#Для систем високого ризику AI Act накладає обов’язок документування та моніторингу роботи системи на предмет прямої та непрямої дискримінації. Вимагає тестування перед впровадженням, логування рішень, механізму пояснення рішень особам, яких вони стосуються, та процедури корекції, якщо упередженість буде виявлена. Обов’язки стосуються як творця системи, так і суб’єкта, який її впроваджує. Деталі описано у статті AI Act і RODO у 2026 році.
Чи достатньо guardrails для контролю упередженості?
#Ні. Guardrails діють на рівні виходу моделі та можуть блокувати певні категорії шкідливих відповідей. Вони не усувають упередженість зі шару висновування, з представлень ембедінгів чи з бази знань RAG. Guardrails — важливий елемент багатошарової оборони, але не замінюють аудит даних, тести підгруп чи людський нагляд за рішеннями високого ризику.
Як часто слід проводити аудит упередженості промислової системи?
Щонайменше раз на рік, а також при кожній суттєвій зміні: нова версія моделі, нові дані в базі знань, зміна профілю користувачів або обсягу рішень системи. Системи високого ризику за визначенням AI Act вимагають безперервного моніторингу та документованого циклу перевірок. Корисним шаблоном є регулярне вибіркове перевіряння рішень системи людиною, перш ніж розподіл помилок встигне ескалувати.
Чи повинна мала компанія турбуватися про алгоритмічну упередженість?
Так, якщо система приймає або підтримує рішення щодо людей, незалежно від масштабу. Масштаб операцій змінює обсяг шкоди, але не її характер. Модель, що класифікує 50 заявок на місяць і систематично шкодить одній демографічній групі, робить це з такою ж регулярністю, як і система, що обробляє 50 000. AI Act не пов’язує обов’язки з розміром компанії, а з категорією ризику застосування.