Коли дослідник вводить у помічника ШІ запитання про механізм дії ферменту, модель відповідає на основі статистичних закономірностей у мільярдах токенів наукового тексту. Але чи розуміє вона, що запитання виникло через розчарування після невдалого експерименту? Що науковець шукає не лише визначення, а й точку опори для нової гіпотези? Це розрізнення має практичні наслідки для кожного, хто проєктує системи ШІ для підтримки наукової роботи.
Що таке теорія розуму і чому ШІ її не має
#Теорія розуму (англ. Theory of Mind, ToM) — це здатність приписувати іншим людям ментальні стани: переконання, наміри, бажання, знання. Дитина набуває її між третім і п’ятим роком життя. Завдяки їй ми знаємо, що колега говорить неправду не тому, що бреше, а тому, що чогось не знає.
Мовні моделі не мають цієї здатності в механістичному сенсі. Їхня архітектура базується на прогнозуванні наступного токена на основі контексту, а не на репрезентації внутрішніх станів співрозмовника. Дослідження 2023 і 2024 років показують, що LLM можуть проходити деякі класичні тести ToM, як-от завдання на хибне переконання, але роблять це завдяки закономірностям у тренувальних даних, а не через реальне моделювання розуму співрозмовника. Якщо тест навіть трохи переформулювати, результат помітно погіршується.
Для наукової роботи це різниця між інструментом, який відповідає на запитання буквально, і помічником, який розуміє контекст за запитанням.
Що ШІ насправді вичитує з запитання дослідника
#Навіть без теорії розуму модель має реальну корисність у інтерпретації намірів. Варто відокремити, що працює, а що — ні.
Що працює стабільно. Модель виводить намір із лексичних і структурних сигналів: ключових слів, граматичного способу, довжини запитання, наявності попередніх обмінів у вікні контексту. Якщо дослідник пише «які механізми пояснюють X», модель розпізнає пояснювальне запитання і відповідає інакше, ніж на «як виміряти X». Для чітко описаних намірів (огляд літератури, синтез, порівняння методологій) точність висока.
Що не працює. Модель не розпізнає емоцій, рівня розчарування, прихованих припущень чи історії проєкту, якщо дослідник не ввів їх прямо в промпт. Вона не знає, що дослідник щойно відкинув третю гіпотезу поспіль і шукає щось інше. Не моделює, що запитання стосується галузі, в якій дослідник є експертом, і що відповідь на вступному рівні буде марною.
У Cashcrown під час проєктування асистентів RAG для клієнтів із сектору R&D ми регулярно спостерігаємо цей патерн: модель точно відповідає на буквальне запитання, але не враховує намір дослідника, якщо той не виражений явно в промпті.
Наслідки для проєктування дослідницьких систем
#Відсутність ToM у ШІ не унеможливлює її корисність у науці. Однак це змінює архітектуру системи, яку ми хочемо побудувати.
| Елемент системи | Без урахування відсутності ToM | З урахуванням відсутності ToM |
|---|---|---|
| Інтерфейс запитань | Одне текстове поле | Структурована форма: мета, контекст, обмеження |
| Інтерпретація результатів | Модель інтерпретує сама | Дослідник перевіряє відповідність наміру перед використанням |
| Ітерація | Одна відповідь | Кілька варіантів інтерпретації запитання на вибір |
| Документація | Відсутня | Лог промптів і намірів як частина дослідницької документації |
Проєктуючи систему для підтримки наукової роботи, варто вбудувати механізм, у якому модель явно перефразовує зрозумілий намір перед наданням відповіді. Це простий патерн, який значно зменшує розбіжність між тим, що дослідник хотів дізнатися, і тим, що модель сприйняла як запитання.
Спробуй наживо
#Галюцинації намірів: коли модель «вгадує» надто сильно
#Галюцинації в контексті теорії розуму мають особливу форму. Модель, замість відповіді «не знаю, що ти маєш на увазі», іноді конструює відповідь на основі уявного наміру, якого в запитанні не було.
Приклад із практики: дослідник запитує про «протокол ізоляції РНК із зразків FFPE». Модель відповідає щодо стандартних протоколів, не сигналізуючи, що для зразків FFPE старших за три роки існує спеціалізована процедура відновлення фрагментації. Не знаючи, що дослідник працює зі старими архівними тканинами, модель пропустила ключову інформацію не через зловмисність, а тому, що не мала даних про контекст.
Пояснюваність у таких системах означає не лише пояснення, звідки взялася відповідь, а й явне сигналізування, які припущення модель зробила щодо наміру того, хто запитує. Без цього дослідник не знає, чого відповідь не охоплює.
Human-oversight: де людина має втрутитися
#Відсутність теорії розуму безпосередньо впливає на вимоги до human-oversight у дослідницьких системах. Це не питання зайвої обережності, а наслідок архітектури моделі.
Три точки, в яких втручання дослідника є обов’язковим:
Перша — верифікація відповідності наміру після першої відповіді моделі. Дослідник оцінює, чи модель відповіла на запитання, яке він поставив, чи на те, яке модель інтерпретувала. Це займає хвилину, але усуває години роботи в неправильному напрямку.
Друга — підтвердження гіпотези перед експериментом. LLM як генератор гіпотез може запропонувати десятки кандидатів, але вибір для експериментування вимагає оцінки біологічних, хімічних або галузевих знань експерта. Модель не знає, які гіпотези є експериментально здійсненними за наявних лабораторних ресурсів.
Третя — валідація перед включенням до рукопису. Кожне твердження, згенероване ШІ, яке потрапляє до публікації, має бути перевірене дослідником із зазначенням першоджерела, а не виходу моделі.
Патерн human-gate, який використовується в агентах у Cashcrown, працює саме за цим принципом: кожна незворотна дія вимагає явного підтвердження. У дослідженнях аналогом є затвердження протоколу перед запуском експерименту.
Що змінюється, коли ШІ краще інтерпретує контекст
#Напрямок розвитку моделей у 2025 і 2026 роках — розширені вікна контексту, краща обробка багатоетапних інструкцій і явна параметризація ролі користувача в системному промпті. Це реально наближає моделі до кориснішої інтерпретації намірів, навіть без теорії розуму в когнітивному сенсі.
Практичні наслідки для дослідницьких систем:
- Системний промпт із описом ролі дослідника (галузь, рівень експертизи, контекст проєкту) покращує точність відповідей значно більше, ніж зміна моделі.
- Багатоетапний діалог, у якому модель на першому кроці перефразовує намір і чекає на корекцію, працює краще, ніж одноразове запитання.
- Інтеграція із системою управління знаннями проєкту (нотатки, попередні експерименти, відхилені гіпотези) через семантичний пошук (RAG) частково компенсує відсутність контекстної пам’яті моделі щодо історії проєкту.
Кожне з цих рішень зменшує розрив у намірах без вимоги, щоб модель «розуміла» науковця в людському сенсі. Це реалістична траєкторія на 2026 і 2027 роки, на відміну від спекуляцій про машини з повноцінною теорією розуму.
FAQ
#Чи пройдуть LLM колись класичні тести теорії розуму?
#Деякі моделі вже досягають високих результатів у стандартних тестах ToM, як-от завдання на хибне переконання. Однак дослідження показують, що це результат запам’ятовування патернів із тренувальних даних, а не реального моделювання ментальних станів. Невелика модифікація тесту може призвести до помітного зниження точності. Інтерпретація «проходження тесту» як доказу наявності ToM є методологічно помилковою.
Як проєктувати промпт, щоб модель краще розпізнавала намір запитання?
#Найефективніший підхід — явний опис контексту запитання: галузь, мета, обмеження, очікуваний рівень відповіді. Замість «які механізми пояснюють X» краще написати «я біохімік, який працює над інгібіторами кінази, шукаю механізми, що пояснюють варіативність у вимірах проліферації, на рівні оглядової статті». Модель відповідає на буквальне запитання, тому чим точніше описаний намір, тим точніша відповідь.
Чи є відсутність теорії розуму в ШІ етичною проблемою в дослідженнях?
#У контексті наукових досліджень це не пряма етична проблема, а архітектурна. Модель не інтерпретує наміри дослідника, тому дослідник має явно перевіряти, чи відповідь моделі відповідає на запитання, яке він мав на увазі. Етичний аспект виникає, коли результати моделі потрапляють до публікації без такої перевірки, що порушує стандарти відтворюваності та наукової відповідальності.
Як система RAG допомагає компенсувати відсутність теорії розуму?
#Семантичний пошук (RAG) надає моделі контекст, специфічний для проєкту: попередні результати експериментів, відхилені гіпотези, нотатки дослідника. Це не усуває відсутність ToM, але зменшує найпоширенішу причину розбіжності намірів: модель не знала, що дослідник уже пробував. За добре спроєктованого індексу проєктних знань модель має достатньо контексту, щоб відповідати на запитання дослідника, а не на загальне запитання.
Як AI Act регулює системи ШІ, що інтерпретують наміри користувача в дослідженнях?
#AI Act не визначає окремої категорії для систем, що інтерпретують наміри, але системи ШІ, які застосовуються в дослідженнях, що впливають на медичні, регуляторні рішення або безпеку людей, підпадають під вимоги до систем високого ризику: реєстр, технічна документація, оцінка відповідності, нагляд після впровадження. Системи для пошуку літератури або попереднього синтезу, які не впливають безпосередньо на рішення високого ризику, мають м’якші вимоги.
Питання пояснюваності систем ШІ, ролі людини в циклі прийняття рішень та автономії ШІ у науці безпосередньо пов’язані з питанням теорії розуму. Якщо ти проєктуєш дослідницьку систему на базі ШІ, інструмент оцінки готовності допоможе виявити прогалини в архітектурі до того, як ти зіткнешся з проблемою намірів у продакшені.
