У 2023 році AlphaMissense охарактеризував патогенність 71 мільйона генетичних варіантів за кілька днів. Рік потому аналогічні системи почали пропонувати експериментальні протоколи в хімії ліків та вказувати зв'язки між біофізичними даними та відповіддю на терапію. Ми в Cashcrown спостерігаємо за цими змінами з практичного боку: що з цього можна сьогодні впровадити в дослідницькій організації або компанії, яка застосовує наукові методи, а що залишається в сфері лабораторних демонстрацій.
Відповідь не є ні захопленою, ні песимістичною. AI сьогодні є корисним асистентом на стику дисциплін, а не автономним дослідником. Різниця має значення, оскільки впливає на те, де розміщуються контрольні точки.
Що поєднує медицину, біологію та фізику в контексті AI
#Кожна з трьох дисциплін накопичує дані в різному форматі та на різному рівні. Медицина продукує діагностичні зображення, клінічні дані та описи випадків. Обчислювальна біологія оперує геномними послідовностями, структурами білків та результатами кінетичних вимірювань. Фізика надає механічні моделі, сенсорні дані та симуляції молекулярної динаміки.
Протягом десятиліть ці набори даних були ізольовані один від одного, оскільки не існувало інструментів, здатних одночасно обробляти такі різноманітні представлення. LLM та мультимодальні моделі змінили цей стан, хоча й не безумовно.
Конкретні завдання, в яких інтеграція даних працює відтворювано:
- Кореляція результатів МРТ-зображень з генетичними профілями пацієнтів у пошуках прогностичних маркерів.
- Пошук літератури, що одночасно охоплює публікації з кардіології, біофізики мембран та фізики рідин, щодо спільних механізмів.
- Перенесення симуляційних моделей з фізики матеріалів для моделювання твердості кісток та динаміки метастазів.
- Екстракція кінетичних даних з описів експериментів у нестандартних PDF-форматах до уніфікованих таблиць.
Кожне з цих завдань скорочує час роботи дослідника з тижнів до годин або днів. Жодне з них не усуває верифікаційного експерименту.
Симуляції на стику фізики та біології: що AI додає і чого не замінює
#Симуляції молекулярної динаміки на основі класичної молекулярної динаміки є обчислювально затратними: моделювання однієї мікросекунди поведінки білка у водному середовищі може зайняти тижні на обчислювальному кластері. Моделі RAG з корпусом структурних статей та нейронні мережі, навчені на результатах симуляцій, дозволяють створювати «сурогатні моделі», які наближають результати в десятки разів швидше.
Це реальна зміна темпу роботи. Але сурогати мають відомий режим збою: вони добре інтерполюють у межах тренувальних даних, але не справляються з системами поза розподілом. Дослідник, який запускає сурогатну симуляцію для нового класу сполук, повинен знати, наскільки далеко він відходить від тренувальних даних.
У наведеній нижче таблиці порівнюються типи завдань, підхід AI та точка, в якій втручається людина:
| Завдання | Підхід AI | Контрольна точка людини |
|---|---|---|
| Пошук літератури | Семантичний багатодоменний пошук | Оцінка релевантності та якості джерел |
| Передбачення структури білка | Моделі передбачення структури (клас AlphaFold) | Експериментальна валідація (кристало, cryo-EM) |
| Сурогатна модель MD | Мережа, навчена на траєкторіях | Порівняння з класичною симуляцією на вибірці |
| Інтеграція клінічних та геномних даних | Конвеєр екстракції + кореляція | Клінічне значення та причинність |
| Генерація гіпотез | LLM + галузева база знань | Селекція та пріоритизація гіпотез для експерименту |
Персоналізована медицина: де AI дійсно допомагає сьогодні
#Персоналізована медицина — це галузь, в якій дані з різних рівнів біології (геноміка, транскриптоміка, клінічні дані, візуалізація) повинні бути об'єднані для прийняття терапевтичних рішень. Це природне середовище для систем, що інтегрують гетерогенні джерела.
Завдання, в яких explainability сьогодні має ключове значення:
Стратифікація пацієнтів. Модель групує пацієнтів на основі молекулярних профілів, попередніх відповідей та даних візуалізації. Результат — пропозиція сегментації, а не діагноз. Клініцист вирішує, чи має сенс біологічно межа поділу та чи відповідає вона відмінностям у клінічному перебігу.
Віртуальний скринінг терапевтичних кандидатів. AI пропонує набір сполук зі оціненою активністю щодо терапевтичної мішені. Вузька селекція зі списку кандидатів потрапляє до «мокрої» лабораторії. Без експерименту in vitro, а потім in vivo, жодна з них не проходить до подальшого розвитку.
Передбачення взаємодії ліки-мішень у нових популяціях. Моделі, навчені переважно на даних європейських популяцій, можуть недооцінювати ризики для пацієнтів інших генетичних груп. Це відома проблема упередженості тренувальних даних, яку обговорює стаття про проблему чорної скриньки.
Згідно з AI Act, системи AI, призначені для медичних застосувань, класифікуються як системи високого ризику, якщо вони підпадають під секторне продуктове право (Додаток I AI Act, включаючи MDR та IVDR). Вони потребують технічної документації, оцінки відповідності та механізму нагляду після впровадження.
Галюцинації та помилки в контексті наукових досліджень
#Галюцинація у дослідницьких системах має інший характер, ніж у розмовному асистенті. Модель може згенерувати цитування статті, яка не існує, надати значення кінетичної константи з точністю до чотирьох знаків після коми (жоден з яких не базується на даних) або запропонувати експериментальний протокол з кроком, що посилається на реагент, недоступний в Україні.
Три рівні пом'якшення, що застосовуються при впровадженні дослідницьких систем:
- Верифікація кожного цитування автором перед включенням до рукопису. Перевірені інструменти: Semantic Scholar API, PubMed, DOI lookup.
- Структурований вивід з JSON Schema, що змушує вказувати діапазон числових значень (кінетичні параметри, концентрації, температури) та фіксує значення поза фізично обґрунтованим діапазоном.
- Логування промптів та відповідей як частини дослідницької документації, аналогічно лабораторному журналу.
Стаття про обмеження галюцинацій у системах AI детально розглядає технічні механізми. У контексті наукових досліджень особливо корисним є рівень цитування джерел із зазначенням фрагмента тексту, на основі якого модель сформулювала відповідь.
Human-oversight у міждисциплінарних дослідженнях: конкретна архітектура
#Поняття «людини в циклі» часто сприймається абстрактно. У практичних впровадженнях аналітичних систем застосовується конкретна архітектура контрольних точок, яку ми детально описуємо в статті про роль людини в циклі.
Три типи контрольних точок у дослідницькому проекті з AI:
Верифікація перед експериментом. AI згенерувало гіпотезу або протокол. Керівник досліджень затверджує перед запуском фізичного експерименту. Це аналог human-gate для незворотних дій: реагент не потрапляє до пробірки без підпису PI.
Огляд проміжних даних. AI синтезує результати після кожного експериментального раунду та пропонує наступний крок. Дослідник вирішує, чи є шлях біологічно достовірним, чи модель не помилилася в просторі поза тренувальними даними.
Валідація перед публікацією. Кожне твердження в рукописі, яке походить від системи AI, верифікується щонайменше одним галузевим експертом перед відправкою на рецензування. Настанови ICMJE, Nature та Science (станом на 2026 рік) однозначно виключають AI як автора.
Системи, які впроваджують ці контрольні точки з самого початку, працюють швидше, ніж традиційний режим роботи. Системи без контролю працюють швидше лише до моменту, коли результат потрібно відкликати.
FAQ
#Чи може AI самостійно проводити міждисциплінарні дослідження без участі науковця?
#Ні в сенсі, який був би науково достовірним. Моделі не мають причинної моделі світу та не відрізняють кореляцію від механізму. Вони можуть автоматизувати етапи роботи (пошук літератури, екстракція даних, генерація гіпотез, попередня селекція кандидатів), але кожен з цих етапів потребує оцінки галузевого експерта. Стаття про AI як автономного науковця детально аналізує межі цієї автономії.
Які дані потрібні, щоб AI ефективно поєднував знання з медицини, біології та фізики?
#Дані повинні бути структурованими або придатними для екстракції: послідовності у форматах FASTA або UniProt, результати вимірювань у таблицях з одиницями виміру, зображення у стандартних форматах DICOM або NIfTI з анотаціями, описи експериментів з числовими кінцевими точками. Чим менш структуроване джерело, тим вищий ризик помилки екстракції. Аудит якості даних перед впровадженням системи скорочує час налагодження результатів на кілька тижнів.
Як AI Act регулює системи AI, що застосовуються в біомедичних дослідженнях?
#Системи, що безпосередньо впливають на медичні рішення або стосуються безпеки людини, класифікуються як високого ризику на основі AI Act та секторного продуктового права (включаючи MDR та IVDR). Вони потребують технічної документації, оцінки відповідності та механізму нагляду після впровадження. Системи, що підтримують лише етап пошуку літератури або генерації гіпотез, які не впливають безпосередньо на рішення високого ризику, мають м'якші вимоги. Межа між цими категоріями оцінюється контекстно постачальником та кваліфікатором у рамках оцінки відповідності.
Як верифікувати гіпотези, згенеровані AI у наукових дослідженнях?
#Верифікація проходить у три кроки. Спочатку дослідник оцінює біологічну або фізичну достовірність гіпотези на основі експертних знань. Далі проектує мінімальний експеримент, здатний спростувати гіпотезу (фальсифікованість). На завершення результати експерименту порівнюються з прогнозом моделі, а розбіжність документується та аналізується незалежно від напрямку. Стаття про LLM як генератор гіпотез детально розглядає цей цикл.
Чи допомагає AI при міждисциплінарних оглядах літератури та що загрожує його некритичному використанню?
#Так, семантичний пошук у великому корпусі є одним з найсильніших застосувань AI у науці. Ризик некритичного використання полягає в трьох речах: модель може надати неіснуючі цитування (галюцинація), може систематично пропускати джерела, історично недопредставлені в тренувальних даних, та може надавати надмірне значення високоцитованим роботам на шкоду новим результатам. Верифікація кожного цитування перед включенням до рукопису та ручне доповнення списку джерел з первинних баз (PubMed, Scopus, Web of Science) є обов'язковими.
