Страхова компанія хоче натренувати модель виявлення шахрайства. Вона має сто тисяч транзакційних записів. З них шахрайств — триста. Класифікатор, натренований на такому наборі, навчиться передбачати «відсутність шахрайства» у 99,7% випадків і досягне точності 99,7%, не виявляючи нічого корисного. Проблема не в алгоритмі. Проблема в даних.
Синтетичні дані — одна з відповідей на цю проблему. Не єдина і не завжди правильна, але у 2026 році вони стали стандартним інструментом у наборі кожної команди, що будує системи ШІ для бізнесу. Нижче описано, коли цей інструмент має сенс, як його застосовувати безпечно і де лежать межі, які не варто перетинати.
Що таке синтетичні дані і чим вони не є
Синтетичні дані — це дані, згенеровані моделлю або алгоритмом на основі шаблонів, вивчених з вихідних даних. Ключове: вони не є копією чи анонімізованою версією оригінальних даних. Це нова популяція записів, яка імітує структуру та розподіл оригіналу.
Три класи синтетичних даних, які зустрічаються в проєктах:
Синтетичні табличні дані — рядки таблиці, що нагадують реальні транзакції, пацієнтів, клієнтів або події, згенеровані моделями, такими як CTGAN, TVAE або Gaussian Copula. Кожен рядок є новим. Жоден не відповідає конкретній людині.
Синтетичні тексти та документи — контент, згенерований LLM на основі схем (наприклад, синтетичні рахунки-фактури, рекламаційні листи, звіти інспекцій) для навчання та тестування систем на базі RAG або екстракції даних.
Синтетичні зображення та неструктуровані дані — фотографії, скани, записи, згенеровані генеративними моделями, що застосовуються при нестачі даних у системах комп’ютерного зору або OCR.
Синтетичні дані — це не те саме, що анонімізовані дані. Анонімізація видаляє або маскує PII з реальних записів. Синтетичні дані взагалі не містять реальних записів як джерела окремих рядків, хоча модель, що їх генерує, була натренована на реальних даних. Ця різниця має юридичне та архітектурне значення.
Коли синтетичні дані мають сенс, а коли ні
Не кожну проблему з даними вирішує синтез. У таблиці нижче зіставлено сигнали, які вказують на доцільність синтетики, з тими, що мають її виключити.
| Сигнал | Синтетичні дані | Альтернатива |
|---|---|---|
| Рідкісні класи (шахрайство, аварія, відмова) менше 1% | Так — аугментація рідкісного класу | Over-sampling (SMOTE) для простіших випадків |
| Дані містять PII і їх не можна надати зовнішньому постачальнику | Так — замість маскування зі збереженням розподілу | Локальний self-hosting тренувальної моделі |
| Дані з продакшену потрібні в тестовому середовищі | Так — тестова база без ризику витоку | Підмножина з повною анонімізацією |
| Даних взагалі бракує (новий продукт, новий ринок) | Обережно — моделі нема на чому вчитися розподілу | Пілотний збір реальних даних, експертні правила |
| Система high-risk AI Act Додаток III | Так, але з повною документацією шляху тренування | Реальні дані з DPIA та legal basis |
| Модель має виявляти тонкі поведінкові патерни (наприклад, шахрайство на основі зв’язків) | Ні — синтез губить зв’язки вищого порядку | Реальні дані, можливо federated learning |
Критерій прийняття рішення: синтетичні дані ефективні при статистичних проблемах (дисбаланс класів, брак даних середовища, конфіденційність). Вони не ефективні при проблемах, що вимагають реальної мінливості патернів, яких модель-генератор не бачила у вихідних даних.
Методи генерації табличних даних
Для табличних даних (найпоширеніший випадок у компаніях) вибір методу залежить від складності залежностей у даних.
Gaussian Copula моделює залежності між стовпцями через багатовимірний нормальний розподіл. Швидка, інтерпретована, добре справляється з простими кореляціями. Не справляється з сильно нелінійними або категоріальними даними з рідкісними комбінаціями.
CTGAN (Conditional Tabular GAN) навчається розподілів умовних за допомогою генеративно-змагальної мережі. Краще підходить для даних з багатьма типами стовпців та нелінійними залежностями. Вимагає більше вихідних даних для тренування (орієнтовно кілька тисяч рядків мінімум) і складніша в калібруванні.
TVAE (Tabular Variational Autoencoder) подібна до CTGAN, але базується на варіаційному автоенкодері. Часто стабільніша в тренуванні, гірша при дуже рідкісних комбінаціях значень.
Методи на основі LLM — новіший напрямок, де LLM генерує синтетичні рядки на основі опису схеми та прикладів. Працює при малих наборах (few-shot), повільніший і дорожчий при мільйонах записів, але забезпечує високу реалістичність для текстових або змішаних даних.
Вибір методу має передувати оцінка на валідаційному наборі: натренуйте цільову модель один раз на синтетичних даних, інший — на реальних, порівняйте метрики. Різниця менше 5% на тому самому тестовому наборі — хороший сигнал. Різниця понад 15% свідчить про те, що синтез втрачає важливі патерни.
Валідація якості синтетичних даних
Генерація даних — це половина роботи. Друга половина — підтвердження, що вони корисні та безпечні. Три виміри валідації:
Статистична вірність. Порівняйте розподіли кожного стовпця: mean, std, квантилі, mode для категоріальних. Перевірте матрицю кореляції (Пірсона для числових, Cramér's V для категоріальних) між реальними та синтетичними даними. Бібліотеки, такі як sdmetrics або ydata-profiling, генерують такі звіти автоматично.
Корисність (Train on Synthetic, Test on Real — TSTR). Натренуйте модель на синтетичних даних. Протестуйте на реальних. Порівняйте з моделлю, натренованою на реальних даних (TRTR). Співвідношення метрик TSTR/TRTR, близьке до 1,0, означає, що синтез зберігає патерни, важливі для моделі. Якщо воно падає нижче 0,85, поверніться до параметрів генератора.
Конфіденційність (Privacy Metrics). Найважливіші: Distance to Closest Record (DCR) та Nearest Neighbor Adversarial Accuracy (NNAA). DCR вимірює, наскільки близько кожен синтетичний запис знаходиться до свого найближчого аналога в реальних даних. Записи, занадто близькі до оригіналів, можуть порушувати конфіденційність через атаку membership inference — тобто виявлення, що конкретна особа була у тренувальному наборі.
Observability процесу генерації так само важлива, як і observability продуктивної моделі. Логуйте параметри генератора, версію вихідних даних та результати метрик валідації при кожній генерації.
RODO та AI Act: що діє при синтетичних даних
#Синтетичні дані не автоматично виключаються з-під дії RODO. Європейський інспектор із захисту даних (EDPS) та Комітет (EDPB) пояснюють, що якщо модель, яка генерує дані, була натренована на персональних даних, а згенеровані записи дозволяють ре-ідентифікацію (наприклад, через комбінацію рідкісних ознак), синтетичні дані можуть залишатися персональними даними згідно зі ст. 4(1) RODO.
Вимоги залежать від оцінки ризику ре-ідентифікації:
Якщо DCR та NNAA вказують на низький ризик ре-ідентифікації, а дані генерувалися з агрегату (не з конкретних записів), стандартні правові підстави обробки синтетичних даних аналогічні до анонімізованих даних.
Якщо синтетичні дані генеруються в контексті системи високого ризику згідно з AI Act (наприклад, система скорингового кредитування, рекрутингова, медична), документація шляху тренування має включати опис методу генерації, метрики конфіденційності та результат DPIA. Це вимога ст. 10 AI Act щодо управління даними.
Практичне правило: генеруйте звіт валідації перед кожним використанням синтетичних даних у продакшені або в системах, що підпадають під AI Act. Звіт зберігайте разом з моделлю. При human-oversight у системах високого ризику аудитор має мати доступ до історії тренувальних даних, включаючи синтетичні.
Синтетичні дані для тестів та дебагінгу агентів ШІ
Окреме застосування, яке не вимагає ні тренування моделей, ні повної статистичної валідації, — це синтетичні дані для тестування середовищ та агентів ШІ.
Агент, що обробляє замовлення, має бути протестований на сценаріях, які в продакшені трапляються рідко: замовлення з відсутньою адресою, двадцять позицій у кошику з однієї категорії, валюта, відмінна від PLN, дата доставки в минулому. Таких випадків у продуктивних даних п’ять на мільйон транзакцій. У тестовій базі їх можна згенерувати в будь-якій кількості.
Цей тип синтетичних даних генерується простими скриптами або за допомогою LLM з інструкцією створення крайніх тестових випадків. Не вимагає CTGAN чи TVAE. Вимагає добре описаних крайніх випадків (edge cases), які зазвичай документуються під час аналізу вимог.
При побудові guardrails для агента синтетичні дані для тестів дозволяють автоматичне регресійне тестування: кожна зміна в системному промпті або логіці guardrails проходить через набір синтетичних тестових сценаріїв. Це той самий підхід, що й юніт-тести в інженерії ПЗ, але адаптований для недетермінованих систем ШІ. Більше про моніторинг якості агентів — у статті моніторинг якості агента ШІ.
Інтеграція з пайплайном RAG та fine-tuningом
#Синтетичні дані входять у два місця пайплайну ШІ: як тренувальні дані (fine-tuning) та як документи, що розширюють базу знань RAG.
При fine-tuningu синтетичні пари запитання-відповідь на основі корпоративних документів дозволяють спеціалізувати модель без надсилання конфіденційних документів зовнішньому постачальнику. Схема: локальний LLM генерує запитання та відповіді з документів (які ви маєте право обробляти). Ці синтетичні пари є основою тренувального набору для fine-tuningu. Оригінальні документи ніколи не залишають середовища. Коли цей варіант має сенс, а коли краще залишитися лише з RAG, описано в статті коли fine-tuning має сенс.
При RAG синтетичні дані доповнюють базу знань сценаріями, які не охоплені реальною документацією: приклади діалогів з клієнтом, приклади запитів на пропозицію, приклади звітів інспекцій. Це дає моделі контекст для більш точних відповідей без необхідності розкривати реальні дані клієнтів.
Важливе обмеження: синтетичні документи для RAG мають бути чітко позначені як синтетичні в метаданих вектора. Змішування синтетичних даних з реальними без позначення ускладнює аудит та ускладнює дебагінг галюцинацій. Більше про управління базою знань RAG — у статті оновлення знань RAG та версіонування.
Спробуйте наживо
FAQ
#Чи є синтетичні дані за замовчуванням сумісними з RODO?
#Ні. Синтетичні дані можуть залишатися персональними даними, якщо модель-генератор була натренована на персональних даних, а згенеровані записи дозволяють ре-ідентифікацію конкретних осіб через комбінацію рідкісних ознак. Оцінка ризику ре-ідентифікації за допомогою метрик DCR та NNAA має передувати кожному використанню синтетичних даних у системах, що обробляють інформацію про фізичних осіб. Для систем високого ризику згідно з AI Act потрібна повна DPIA.
Скільки вихідних даних потрібно для генерації синтетичних даних?
Залежить від методу. Gaussian Copula працює з кількома сотнями рядків та простими залежностями. CTGAN та TVAE потребують орієнтовно кількох тисяч рядків для стабільного тренування генератора, а при багатьох категоріальних стовпцях з рідкісними значеннями — більше. Генерація за допомогою LLM (few-shot) працює з кількома десятками прикладів, але статистична якість нижча, ніж у генеративних методів. При дуже малих наборах (менше 500 записів) синтетичні дані можуть парадоксально не покращити модель, бо генератор навчиться на шумі, а не на патернах.
Як перевірити, що синтетичні дані не «витікають» оригінальні записи?
Обчисліть Distance to Closest Record (DCR) для кожного синтетичного запису відносно вихідного набору. Якщо медіана DCR близька до нуля, генератор переписує оригінальні рядки замість створення нових. Доповніть це тестом Nearest Neighbor Adversarial Accuracy (NNAA): класифікатор, натренований на вибірці «реальні vs. синтетичні», має мати точність, близьку до 0,5 (випадково), а не до 1,0 (вміє розрізняти). Бібліотека sdmetrics реалізує обидва тести як готові функції.
Чи замінять синтетичні дані збір реальних даних?
Не повністю. Синтетичні дані — це цінний додатковий інструмент, а не заміна. Модель-генератор синтезу навчається патернів з реальних даних — їй нема звідки згенерувати явища, яких у реальних даних не існувало. При новому продукті без історії, новому ринку або новому типі події синтетичні дані не замінять процес збору пілотних даних. Саме тому перед кожним проєктом ШІ варто оцінити стан даних за допомогою інструменту оцінка готовності та калькулятора ROI.
Як оцінити проєкт впровадження синтетичних даних?
Обсяг робіт залежить від складності схеми даних, кількості стовпців з PII, необхідного рівня валідації (статистична vs. TSTR vs. повна конфіденційність) та того, чи потрапляють дані до системи high-risk AI Act. Орієнтовний опис: пілотні проєкти з оцінкою методу на наявному наборі та впровадженням пайплайну синтезу — це обсяг від кількох до десятків тижнів роботи. Повну оцінку готуємо після аналізу через калькулятор ROI або безпосереднім контактом.