Уявіть типовий сценарій: дослідна група, яка працює з даними LiDAR для важкодоступного регіону, отримує від алгоритму список з кількох десятків потенційних локацій поселень, невидимих на аерофотознімках. Частина з них підтвердиться польовими дослідженнями, частина виявиться природними утвореннями або хибними спрацюваннями через специфіку тренувальних даних. Пропорції залежать від якості даних і регіону. Ця закономірність одночасно вражає й повчає: ШІ прискорює відбір кандидатів, але людина має поїхати на місце й перевірити.
У Cashcrown ми спостерігаємо подібну закономірність у всіх сферах, де застосовуємо алгоритми для аналізу дослідницьких даних. Швидкість і масштаб на боці моделі, оцінка й рішення — на боці експерта.
Які дані обробляє ШІ в археології
#Матеріал, з яким працюють алгоритми в археології, більш різноманітний, ніж у більшості наукових дисциплін.
Дистанційне зондування. Дані LiDAR, супутникові знімки в інфрачервоному діапазоні, аерофотозйомка з дронів. Моделі комп’ютерного зору, особливо згорткові нейронні мережі, виявляють у цих даних аномалії рельєфу та геометричні закономірності, які вказують на наявність структур під поверхнею або під рослинністю.
Записи кераміки та артефактів. Фотографії, 3D-скани, розміри та матеріальний склад. Класифікатор, натренований на тисячах описаних фрагментів кераміки, здатний віднести нове знахідку до культури, періоду та функціональної групи за час, який вручну зайняв би тижні.
Екологічні дані та ГІС. Рельєф місцевості, близькість джерел води, склад ґрунту, історичні карти поширення рослинності. Прогностичні моделі поєднують ці шари, щоб вказати території з підвищеною ймовірністю знахідок.
Тексти та написи. Оптичне розпізнавання символів і мовні моделі допомагають розшифровувати частково пошкоджені написи та таблички. Це завдання, в якому ШІ виступає як пропозиція, а епіграфіст або філолог-класик приймає остаточне рішення.
Де алгоритм дійсно допомагає
#Варто відокремити застосування, які працюють повторювано, від тих, що ще перебувають на експериментальному етапі.
| Застосування | Зрілість | Роль людини |
|---|---|---|
| Класифікація кераміки за фотографіями | Зріле, виробниче | Перевірка вибірки, управління винятками |
| Виявлення аномалій LiDAR | Зріле, широко застосовується | Польова валідація перед оголошенням відкриття |
| Прогнозування локацій місць знаходжень за даними ГІС | Перевірене в обмежених регіонах | Відбір пріоритетів досліджень, рішення про розкопки |
| Фотограмметрія та 3D-реконструкція | Зріле | Культурна та хронологічна інтерпретація |
| Розшифровка пошкоджених написів | Експериментальне | Епіграфіст затверджує або відхиляє кожну пропозицію |
| Датування за стилем артефактів | Експериментальне | Дослідник порівнює з стратиграфічним контекстом |
Спільний знаменник: чим більше завдання полягає в розпізнаванні патернів у великих, однорідних наборах даних, тим краще справляється модель. Чим більше воно вимагає розуміння культурного контексту, намірів, наративу або етичного виміру знахідки, тим більш незамінною є людина.
Як виглядає пайплайн від даних до кандидата
#Типовий цикл аналізу з підтримкою ШІ не замінює методологію досліджень. Він вбудовується в неї як шар, що прискорює процес.
Вхідні дані проходять через препроцесинг: нормалізацію роздільної здатності зображень, геоприв’язку, заповнення відсутніх значень у екологічних даних. Далі модель екстракції ознак перетворює сирі пікселі або виміри на числові представлення, які можна порівнювати.
На цьому представленні працює власне алгоритм: класифікатор для артефактів, модель просторового прогнозування для локацій місць знаходжень, детектор аномалій для зображень. Результатом є список кандидатів із присвоєним рівнем впевненості, а не список фактів.
Рівень впевненості тут ключовий. Хороша система інформує дослідника не лише про те, що запропонувала, але й наскільки далеко пропозиція від розподілу тренувальних даних. Результат за межами цього розподілу — сигнал, що модель працює в зоні, де її калібрування ненадійне. У наших впровадженнях такий сигнал надходить до користувача як анотація, а не приховується.
Межі моделей і моменти, коли вирішує археолог
#Галюцинації в контексті археології — це не лише технічна проблема. Хибно-позитивний прогноз місця знаходження може спрямувати обмежені дослідницькі ресурси в неправильне місце. Помилкова класифікація артефакту може закріпитися в літературі та цитуватися наступними системами, які навчаються на цій самій літературі.
Кілька обмежень, про які варто пам’ятати при проектуванні системи:
Упередженість тренувальних даних. Моделі навчаються на тому, що вже було відкрито й описано. Менш досліджувані території, культури з меншим представництвом у наборах даних та артефакти, що відхиляються від добре відомих типів, класифікуватимуться гірше. Це не помилка алгоритму, це дзеркало вхідних даних.
Відсутність контекстуального мислення. Модель не знає, що певна конфігурація кераміки в даному регіоні має ритуальне, а не утилітарне значення. Вона не інтерпретує знахідку в світлі зв’язків із сусідніми культурами. Це завдання експерта.
Чутливість до якості даних. Зображення з різних датчиків, різних сезонів і різної роздільної здатності можуть давати суперечливі результати навіть для однієї території. Препроцесинг вирішує питання достовірності результату більше, ніж вибір архітектури моделі.
Відповідно до принципів, які ми застосовуємо у своїх проектах, кожен результат моделі, що впливає на рішення про розкопки або класифікацію знахідки в реєстрі спадщини, проходить через human-oversight: перевірку уповноваженим дослідником із документованим обґрунтуванням. Це не уповільнює дослідження. Це стандарт, без якого результати не потрапляють до публікацій.
Питання даних та відповідальність за спадщину
#Археологічні дані мають особливий статус. Інформація про локації місць знаходжень, якщо стане публічною без належних заходів безпеки, може призвести до грабіжницьких розкопок. 3D-скани сакральних об’єктів та артефактів корінних громад потребують окремих протоколів згоди, яких жодна модель не забезпечує самостійно.
На практиці це означає кілька вимог при проектуванні системи:
Набори даних з описами локацій зберігаються з обмеженим доступом, окремо від моделі аналізу. Модель працює з представленнями, а не з сирими координатами GPS, переданими через відкрите API.
Аудит упередженості тренувальних наборів є частиною документації проекту. Якщо тренувальні дані походять з певних регіонів або типів місць знаходжень, це чітко документується, а результати для менш представлених територій позначаються як менш достовірні.
Нащадкові громади мають право визначати, які дані щодо їхньої спадщини можуть оброблятися та з якою метою. Система ШІ не замінює цієї консультації.
Пов’язані питання щодо пояснюваності моделей та відповідальності за результати ми детальніше розглядаємо в контексті проблеми чорної скриньки та відповідальної інновації.
FAQ
#Чи може ШІ самостійно підтвердити археологічне відкриття?
#Ні. Модель може запропонувати локацію або класифікацію з певним рівнем впевненості, але підтвердження відкриття потребує польової валідації або лабораторного аналізу уповноваженим дослідником. Стандарти публікацій та вимоги реєстрів культурної спадщини вимагають методологічної документації, яку модель самостійно не надає.
Які типи артефактів ШІ класифікує найефективніше?
#Найкращі результати досягаються для артефактів з великими, добре описаними тренувальними наборами: кераміка (форма, орнамент, склад), крем’яні знаряддя (техніка відщеплення, тип), монети та печатки (іконографія, написи). Ефективність знижується для органічних артефактів, об’єктів з малопредставлених культур та знахідок, де вирішальним є мікроконтекст стратиграфії, а не лише візуальні ознаки.
Чи підходять прогностичні моделі місць знаходжень для будь-якого регіону?
#Моделі, натреновані на одному регіоні, не переносяться безпосередньо на інший з відмінною геологією, історією заселення або доступністю даних. Transfer learning дозволяє адаптувати модель при обмеженій кількості відомих місць знаходжень у новій території, але вимагає перевірки на локальному тестовому наборі перед використанням для прийняття дослідницьких рішень. Точність на тренувальному наборі не гарантує ефективності в польових умовах.
Як AI Act впливає на застосування алгоритмів в археології?
#Системи ШІ, що використовуються в процесах прийняття рішень щодо культурної спадщини та офіційних реєстрів, можуть підпадати під вимоги систем високого ризику або суттєвого впливу на культурні права. Це означає обов’язок технічної документації, оцінки ризиків та можливості аудиту. Системи суто допоміжного характеру, які не генерують адміністративних рішень, мають м’якші вимоги, але вимога пояснюваності результатів залишається хорошою практикою незалежно від регуляцій.
Як відрізнити корисну систему ШІ від інструменту, який лише перекладає проблему?
#Корисна система зменшує час експертної роботи при збереженні або покращенні якості класифікації. Тривожні сигнали: відсутність інформації про рівень впевненості в результаті, відсутність аудиту упередженості тренувальних даних, відсутність шляху для верифікації пропозицій моделі людиною. Якщо система надає результати без анотацій про обмеження, вона переносить тягар перевірки на дослідника, не надаючи йому інструментів для цієї перевірки. Детальніше про цей патерн у статті про роль людини в процесах ШІ.
Патерн, який ми спостерігаємо в археології, узгоджується з тим, що описуємо в контексті ШІ як наукового асистента та роботи науковців з ШІ: швидкість і масштаб на боці алгоритму, оцінка й відповідальність — на боці людини. Якщо плануєте впровадити подібну систему для аналізу дослідницьких даних у своїй організації, інструмент оцінки готовності допоможе виявити прогалини перед початком розробки.
