ШІ для резюмування довгих документів: стратегії та обмеження

Юридичний відділ отримує 180-сторінковий договір про спільне підприємство для перегляду перед підписанням. Тижня немає. Є один день. Питання виникає швидко: чи може ШІ це резюмувати?

Відповідь: так, з важливим застереженням. Модель скоротить час орієнтації в документі з годин до хвилин. Але резюме не замінює читання критичних положень, від яких залежить відповідальність, відшкодування та умови розірвання. Це два різні застосування, які не слід плутати.

Проблема: документ довший за вікно контексту

Мовні моделі мають обмежене вікно контексту. Навіть моделі з вікнами близько 128 000 токенів мають межу, а точність обробки знижується при повному заповненні контексту. Контракт на 180 сторінок, протокол 8-годинного засідання правління чи річний звіт компанії на 300 сторінок — це документи, які часто перевищують цей ліміт або наближаються до нього настільки, що якість резюме помітно погіршується.

Два архітектурні рішення цієї проблеми мають різні властивості та різні режими збоїв.

Map-reduce (ієрархічне резюмування): документ ділиться на фрагменти, кожен фрагмент резюмується окремо (фаза map), а потім резюме синтезуються в ціле (фаза reduce). Можна будувати багаторівневі ієрархії: спочатку абзаци до розділів, потім розділи до глав, потім глави до цілого. Перевага — масштабованість: документ може бути будь-якої довжини. Недолік — залежності між фрагментами можуть загубитися. Положення в главі 3 визначає поняття, яке використовується в главі 12; якщо фрагмент глави 12 резюмується без знання того, як це поняття визначено в главі 3, модель або вгадає, або пропустить.

RAG з цитуванням: замість послідовного резюмування всього документа система відповідає на конкретні запитання через семантичний пошук. Запит «які умови розірвання договору» витягує найрелевантніші фрагменти, які модель синтезує з обов’язковим цитуванням номера сторінки та абзацу. Перевага — вищий рівень довіри: кожна відповідь має джерело. Недолік — необхідність точних запитань та відсутність цілісного огляду без ітерацій. Стаття ШІ для аналізу документів детально описує цей пайплайн.

Стратегії структурованих резюме

Найкорисніші резюме в корпоративному контексті — це не вільний текстовий опис, а структури, заповнені моделлю за схемою. Три формати, які добре зарекомендували себе на практиці:

Ключові пункти з локалізацією. Список з 5-15 положень з обов’язковим зазначенням сторінки та розділу. Формат змушує модель прив’язувати кожен пункт до тексту та полегшує перевірку людиною: читач перевіряє не все, а конкретні місця.

Резюме ризиків. Список елементів за типом ризику, його описом та місцем у документі. Корисно для юристів та аналітиків due diligence, які хочуть швидко знайти положення, що потребують уваги. Модель заповнює схему через structured output, що полегшує інтеграцію з системами управління ризиками.

Список дій. З протоколів засідань, проектних брифів та звітів з аудитів модель може витягувати пункти для виконання з призначеною особою та терміном. Умова: протокол повинен містити ці елементи. Якщо вони не вказані явно, модель буде їх виводити, що збільшує ризик помилки.

Усі три формати можна валідувати схемою JSON перед передачею результатів у подальший обіг. Стаття валідація виходів LLM розповідає, як спроектувати цей шар.

Порівняння стратегій: коли що застосовувати

Стратегія	Найкраще для	Ризик	Необхідна перевірка
Map-reduce	довгі звіти, протоколи, наративні документи	втрата залежностей між розділами	вибіркова, ключові розділи
RAG з запитаннями	контракти, due diligence, Q&A щодо документа	пропуск положень поза запитом	підтвердження відсутності результатів
Structured output	таблична екстракція, чекліст, KPI	галюцинація числових значень	кожне число та дата
Ієрархічне (3 рівні)	дуже довгі документи (300+ сторінок)	деградація цілісності на верхньому рівні ієрархії	синтез цілого людиною

Вибір стратегії залежить від мети резюме, чутливості документа та того, скільки часу має людина для перевірки. Для документів з високою юридичною або фінансовою ставкою немає стратегії, яка звільняє від перевірки.

Режими збоїв, про які потрібно знати

Ми в Cashcrown спостерігаємо два режими збоїв, які виникають непропорційно часто при резюмуванні довгих документів.

Пропущене положення. У map-reduce положення може бути пропущене, якщо фрагмент, в якому воно знаходиться, не містив достатнього контексту, щоб модель визнала його важливим. Це трапляється з положеннями, вбудованими в нібито стандартні розділи (наприклад, положення про зміну законодавства в розділі «Заключні положення»). Жодна з доступних наразі архітектур не дає гарантії 100% recall для критичних положень без спеціального golden set тестування.

Галюцинація факту, відсутнього у джерелі. Модель заповнює прогалину ймовірним текстом. При резюмуванні контракту може «доповнити» відсутній термін оплати значенням, типовим для цього виду договорів. При резюмуванні звіту може надати сукупні KPI, яких звіт не містив, але які звучали б логічно. Цитування джерела при кожному пункті резюме — найефективніший захист: пункт без цитування є сигналом, що модель могла вгадувати.

Стаття як обмежити галюцинації ШІ детально описує шари захисту. Ключовий висновок: галюцинацій не можна звести до нуля за допомогою кращої моделі. Архітектура з цитуванням та порогом впевненості зменшує їх до прийнятного рівня.

Межа: коли резюме недостатньо

Для юридичних та фінансових документів існує жорстка межа, яку не можна перетинати.

Резюме ШІ — це інструмент навігації: дозволяє швидко знайти, які розділи потребують уваги, на яких сторінках розташовані критичні положення, що є нестандартним щодо шаблону. Воно не є і не повинно бути остаточною інтерпретацією змісту, на основі якої приймаються рішення про підписання, прийняття умов або взяття відповідальності.

Human oversight для юридичних та фінансових документів означає конкретно: перевірку критичних положень юристом або аналітиком за першоджерелом, а не за резюме. Резюме прискорює цей процес, вказуючи місця, на які слід звернути увагу. Воно не замінює перегляду.

Для документів, що містять професійну таємницю або персональні дані, архітектура повинна враховувати self-hosting моделі або маскування PII перед відправкою до зовнішніх API. Стаття корпоративний GPT на базі знань розглядає варіанти впровадження з різними профілями ризику даних.

Чанкінг та верифікація: дві умови якісного резюме

Якість резюме значною мірою залежить від того, як документ ділиться на фрагменти перед обробкою. Занадто малі фрагменти втрачають контекст речень з попереднього абзацу. Занадто великі знижують точність та збільшують вартість запиту.

Кілька правил, які добре зарекомендували себе в наших впровадженнях:

Межі чанків повинні збігатися з межами абзаців або розділів, а не визначатися механічно кожні 512 токенів.
Кожен чанк повинен містити метадані: номер сторінки, заголовок розділу, ідентифікатор документа. Без цих метаданих цитування неможливе.
Для map-reduce варто використовувати overlap близько 10-15% між сусідніми чанками, щоб положення, що розтягуються на межі сторінок, не втрачали контекст.
Для документів з таблицями (фінансові звіти, договори з графіками платежів) таблиці потребують окремої стратегії чанкінгу: весь рядок таблиці як один чанк з заголовками стовпців у кожному фрагменті.

Деталі стратегії чанкінгу описує стаття чанкінг документів для RAG.

Опишіть тип документа та що ви хочете з нього витягти, а модель запропонує стратегію резюмування, адаптовану до вашого випадку (playground: PII масковані, zero retencji):

▶Підберіть стратегію резюмування для вашого документаsandbox · reasoning

FAQ

Чи гарантує map-reduce, що жодне положення не буде пропущене?

Ні. Map-reduce покращує масштабованість, але не дає гарантії повного покриття. Положення, розміщені в розділах, які модель оцінила як малозначущі на етапі map, можуть не потрапити до синтезу. Єдиний спосіб емпірично виміряти покриття — golden set: збір попередньо анотованих критичних положень та перевірка, скільки з них система правильно ідентифікує. Ціль понад 95% recall для критичних положень досяжна після калібрування, але вимагає ітерацій з реальними документами.

Як відрізнити, чи модель цитує джерело, чи галюцинує цитату?

У добре спроектованій системі кожне речення в резюме пов’язане з ідентифікатором фрагмента (номер сторінки, розділ, речення). Верифікація полягає в переході до вказаного місця та підтвердженні, що текст там дійсно існує. Система без механізму цитування на рівні абзацу або речення не дає інструменту для верифікації та не підходить для юридичних чи фінансових застосувань. Шар валідації виходів повинен блокувати відповіді з низьким коефіцієнтом прив’язки до джерела.

Чи може ШІ резюмувати документи кількома мовами одночасно?

Так, сучасні багатомовні моделі підтримують резюмування зі змішаними мовами. Практична проблема — спеціалізована термінологія: юридичні та фінансові положення мають точне значення, яке не завжди прямо перекладається між мовами. Для двосторонніх документів (наприклад, договір польською з робочим перекладом англійською) варто будувати окремі індекси для кожної мови та порівнювати результати крос-мовою, замість покладатися на автоматичний переклад на етапі резюмування.

Скільки токенів коштує резюмування 100-сторінкового документа?

Це залежить від стратегії. Map-reduce на 100 сторінках при чанках по 500 токенів та 20% overlap генерує близько 250 фрагментів. Кожна фаза map — це одне звернення до моделі, фаза reduce — ще одне. При моделі з ціною 1-3 USD за мільйон токенів вартість одного резюме становить від кількох десятків копійок до кількох гривень. Для великих обсягів (десятки документів на тиждень) варто розглянути роутер моделей: дешевша модель для фази map, потужніша для фази reduce та для запитань про критичні положення.

Чи можна вважати резюме ШІ доказом у правовому спорі?

Ні. Резюме є продуктом мовної моделі і може містити помилки, пропуски або хибну інтерпретацію юридичного контексту. Доказом у спорі є зміст оригінального документа. Резюме може використовуватися як внутрішній інструмент для орієнтації та тріажу, але не замінює оригінал чи юридичну думку. Системи ШІ для резюмування юридичних документів згідно з AI Act є системами підтримки рішень і вимагають, щоб людина мала можливість верифікації та перевизначення кожної рекомендації моделі.

ШІ для резюмування довгих документів: стратегії та обмеження

Проблема: документ довший за вікно контексту

Два архітектурні рішення цієї проблеми мають різні властивості та різні режими збоїв.

Стратегії структурованих резюме

Порівняння стратегій: коли що застосовувати

Стратегія	Найкраще для	Ризик	Необхідна перевірка
Map-reduce	довгі звіти, протоколи, наративні документи	втрата залежностей між розділами	вибіркова, ключові розділи
RAG з запитаннями	контракти, due diligence, Q&A щодо документа	пропуск положень поза запитом	підтвердження відсутності результатів
Structured output	таблична екстракція, чекліст, KPI	галюцинація числових значень	кожне число та дата
Ієрархічне (3 рівні)	дуже довгі документи (300+ сторінок)	деградація цілісності на верхньому рівні ієрархії	синтез цілого людиною

Режими збоїв, про які потрібно знати

Межа: коли резюме недостатньо

Для юридичних та фінансових документів існує жорстка межа, яку не можна перетинати.

Чанкінг та верифікація: дві умови якісного резюме

Кілька правил, які добре зарекомендували себе в наших впровадженнях:

Межі чанків повинні збігатися з межами абзаців або розділів, а не визначатися механічно кожні 512 токенів.
Кожен чанк повинен містити метадані: номер сторінки, заголовок розділу, ідентифікатор документа. Без цих метаданих цитування неможливе.
Для map-reduce варто використовувати overlap близько 10-15% між сусідніми чанками, щоб положення, що розтягуються на межі сторінок, не втрачали контекст.
Для документів з таблицями (фінансові звіти, договори з графіками платежів) таблиці потребують окремої стратегії чанкінгу: весь рядок таблиці як один чанк з заголовками стовпців у кожному фрагменті.

Деталі стратегії чанкінгу описує стаття чанкінг документів для RAG.

▶Підберіть стратегію резюмування для вашого документаsandbox · reasoning