KI-gestützte Archäologie: Was Algorithmen in Daten erkennen

Stell dir ein typisches Szenario vor: Ein Forschungsteam arbeitet mit LiDAR-Daten für eine schwer zugängliche Region und erhält vom Algorithmus eine Liste von Dutzenden potenziellen Siedlungsstandorten, die auf Luftbildern nicht sichtbar sind. Einige davon werden durch Feldforschungen bestätigt, andere entpuppen sich als natürliche Formationen oder falsche Treffer aufgrund der Spezifika der Trainingsdaten. Die Proportionen hängen von der Datenqualität und der Region ab. Dieses Muster ist gleichzeitig beeindruckend und lehrreich: KI beschleunigt die Auswahl von Kandidaten, aber der Mensch muss vor Ort gehen und überprüfen.

Bei Cashcrown beobachten wir ein ähnliches Muster in allen Bereichen, in denen wir Algorithmen zur Analyse von Forschungsdaten einsetzen. Geschwindigkeit und Skalierung liegen beim Modell, Bewertung und Entscheidung beim Experten.

Welche Daten verarbeitet KI in der Archäologie

Das Material, mit dem Algorithmen in der Archäologie arbeiten, ist vielfältiger als in den meisten wissenschaftlichen Disziplinen.

Fernerkundungsdaten. LiDAR-Daten, Satellitenbilder im Infrarotbereich, Luftaufnahmen von Drohnen. Modelle der Computer Vision, insbesondere Convolutional Neural Networks, erkennen in diesen Daten Geländeanomalien und geometrische Regelmäßigkeiten, die auf Strukturen unter der Oberfläche oder unter Vegetation hindeuten.

Aufzeichnungen von Keramik und Artefakten. Fotografien, 3D-Scans, Abmessungen und Materialzusammensetzung. Ein auf Tausenden beschriebenen Keramikfragmenten trainierter Klassifikator kann ein neues Fundstück innerhalb von Sekunden einer Kultur, Epoche und funktionalen Gruppe zuordnen – ein Prozess, der manuell Wochen gedauert hätte.

Umwelt- und GIS-Daten. Geländebeschaffenheit, Nähe zu Wasserquellen, Bodenbeschaffenheit, historische Karten der Vegetationsausdehnung. Prädiktive Modelle kombinieren diese Schichten, um Gebiete mit erhöhter Fundwahrscheinlichkeit zu identifizieren.

Texte und Inschriften. Optische Zeichenerkennung und Sprachmodelle unterstützen die Entzifferung teilweise beschädigter Inschriften und Tafeln. Hier fungiert KI als Vorschlagssystem, während der Epigraphiker oder klassische Philologe die endgültige Entscheidung trifft.

Wo der Algorithmus tatsächlich hilft

Es lohnt sich, Anwendungen, die zuverlässig funktionieren, von denen zu trennen, die noch experimentell sind.

Anwendung	Reifegrad	Rolle des Menschen
Klassifizierung von Keramik anhand von Fotos	Ausgereift, produktiv	Überprüfung von Stichproben, Management von Ausnahmen
Erkennung von LiDAR-Anomalien	Ausgereift, weit verbreitet	Feldvalidierung vor Bekanntgabe einer Entdeckung
Vorhersage von Fundstätten anhand von GIS-Daten	Bewährt in begrenzten Regionen	Auswahl von Forschungsprioritäten, Entscheidung über Ausgrabungen
Photogrammetrie und 3D-Rekonstruktion	Ausgereift	Kulturelle und chronologische Interpretation
Entzifferung beschädigter Inschriften	Experimentell	Epigraphiker bestätigt oder verwirft jeden Vorschlag
Datierung anhand des Artefaktstils	Experimentell	Forscher vergleicht mit stratigraphischem Kontext

Gemeinsamer Nenner: Je stärker die Aufgabe auf der Erkennung von Mustern in großen, homogenen Datensätzen beruht, desto besser schneidet das Modell ab. Je mehr Verständnis für kulturellen Kontext, Intention, Narrative oder ethische Dimension eines Fundes erforderlich ist, desto unverzichtbarer ist der Mensch.

Wie der Pipeline von Daten zu Kandidaten aussieht

Ein typischer, KI-gestützter Analysezyklus ersetzt nicht die Forschungsmethodik. Er integriert sich als beschleunigende Schicht.

Die Eingabedaten durchlaufen ein Preprocessing: Normalisierung der Bildauflösung, Georeferenzierung, Ergänzung fehlender Werte in Umweltdaten. Anschließend wandelt ein Feature-Extraktionsmodell die Rohpixel oder Messwerte in numerische Repräsentationen um, die vergleichbar sind.

Auf dieser Repräsentation arbeitet der eigentliche Algorithmus: ein Klassifikator für Artefakte, ein räumliches Prädiktionsmodell für Fundstätten, ein Anomaliedetektor für Bilddaten. Das Ergebnis ist eine Liste von Kandidaten mit zugewiesener Konfidenzstufe – keine Liste von Fakten.

Die Konfidenzstufe ist hier entscheidend. Ein gutes System informiert den Forscher nicht nur über den Vorschlag, sondern auch darüber, wie weit dieser vom Verteilungsspektrum der Trainingsdaten entfernt ist. Ein Ergebnis außerhalb dieser Verteilung signalisiert, dass das Modell in einem Bereich operiert, in dem seine Kalibrierung unsicher ist. In unseren Implementierungen wird ein solches Signal als Anmerkung an den Nutzer weitergegeben, nicht verborgen.

▶Bewerte die Glaubwürdigkeit von Fundstättenvorhersagensandbox · reasoning

Grenzen der Modelle und Momente, in denen der Archäologe entscheidet

Halluzinationen im archäologischen Kontext sind nicht nur ein technisches Problem. Ein falsch-positiver Fundstättenvorschlag kann begrenzte Forschungsressourcen in die falsche Richtung lenken. Eine fehlerhafte Artefaktklassifizierung kann sich in der Literatur verfestigen und von nachfolgenden, auf derselben Literatur trainierten Systemen zitiert werden.

Einige Einschränkungen, die bei der Systemgestaltung zu beachten sind:

Verzerrung der Trainingsdaten. Modelle lernen von dem, was bereits entdeckt und beschrieben wurde. Weniger erforschte Gebiete, unterrepräsentierte Kulturen und Artefakte, die von bekannten Typen abweichen, werden schlechter klassifiziert. Das ist kein Fehler des Algorithmus, sondern ein Spiegel der Eingabedaten.

Fehlendes kontextuelles Verständnis. Das Modell weiß nicht, dass eine bestimmte Keramik-Konfiguration in einer Region rituelle und keine praktische Bedeutung hat. Es interpretiert Funde nicht im Licht von Verbindungen zu benachbarten Kulturen. Das ist Aufgabe des Experten.

Empfindlichkeit gegenüber Datenqualität. Bilddaten von verschiedenen Sensoren, aus unterschiedlichen Jahreszeiten und mit unterschiedlichen Auflösungen können selbst für dasselbe Gebiet inkonsistente Ergebnisse liefern. Das Preprocessing entscheidet mehr über die Glaubwürdigkeit des Ergebnisses als die Wahl der Modellarchitektur.

Gemäß den Prinzipien, die wir in unseren Projekten anwenden, durchläuft jedes Modellergebnis, das Auswirkungen auf Entscheidungen über Ausgrabungen oder die Klassifizierung von Funden im Kulturerberegister hat, einen Human-Oversight: eine Überprüfung durch einen autorisierten Forscher mit dokumentierter Begründung. Das verlangsamt die Forschung nicht. Es ist der Standard, ohne den Ergebnisse nicht in Publikationen einfließen.

Datenfrage und Verantwortung für das Kulturerbe

Archäologische Daten haben einen besonderen Status. Informationen über Fundstätten können, wenn sie ohne angemessene Schutzmaßnahmen öffentlich werden, zu Raubgrabungen führen. 3D-Scans von sakralen Objekten und Artefakten indigener Gemeinschaften erfordern separate Einwilligungsprotokolle, deren Einhaltung kein Modell eigenständig durchsetzt.

In der Praxis bedeutet das mehrere Anforderungen an die Systementwicklung:

Datensätze mit Standortbeschreibungen werden mit eingeschränktem Zugriff gespeichert, getrennt vom Analysemodell. Das Modell arbeitet mit Repräsentationen, nicht mit Roh-GPS-Koordinaten, die über eine offene API weitergegeben werden.

Ein Audit der Verzerrungen in den Trainingsdaten ist Teil der Projektdokumentation. Wenn Trainingsdaten aus bestimmten Regionen oder Fundstättentypen stammen, wird dies explizit dokumentiert, und Ergebnisse für unterrepräsentierte Gebiete werden als weniger zuverlässig gekennzeichnet.

Nachfolgegemeinschaften haben das Recht festzulegen, welche Daten zu ihrem Erbe verarbeitet werden dürfen und zu welchem Zweck. Das KI-System ersetzt diese Konsultation nicht.

Verwandte Themen wie Erklärbarkeit von Modellen und Verantwortung für Ergebnisse behandeln wir ausführlicher im Kontext des Problems der Blackbox und verantwortungsvoller Innovation.

FAQ

Kann KI eigenständig eine archäologische Entdeckung bestätigen?

Nein. Das Modell kann einen Standort oder eine Klassifizierung mit einer bestimmten Konfidenzstufe vorschlagen, aber die Bestätigung einer Entdeckung erfordert eine Feldvalidierung oder Laboranalyse durch einen autorisierten Forscher. Publikationsstandards und Anforderungen von Kulturerberegistern verlangen methodische Dokumentation, die das Modell nicht eigenständig liefert.

Welche Artefakttypen klassifiziert KI am effektivsten?

Die besten Ergebnisse werden bei Artefakten mit großen, gut beschriebenen Trainingsdatensätzen erzielt: Keramik (Form, Ornament, Zusammensetzung), Feuersteinwerkzeuge (Abschlagtechnik, Typ), Münzen und Siegel (Ikonographie, Inschriften). Die Effektivität sinkt bei organischen Artefakten, Objekten aus unterrepräsentierten Kulturen und Funden, bei denen der mikrostratigraphische Kontext entscheidend ist, nicht die visuellen Merkmale allein.

Eignen sich prädiktive Modelle für Fundstätten für jede Region?

Modelle, die für eine Region trainiert wurden, lassen sich nicht direkt auf eine andere mit unterschiedlicher Geologie, Besiedlungsgeschichte oder Datenverfügbarkeit übertragen. Transfer Learning ermöglicht die Anpassung des Modells mit einer begrenzten Anzahl bekannter Fundstätten in einem neuen Gebiet, erfordert jedoch eine Validierung an einem lokalen Testdatensatz, bevor es zur Steuerung von Forschungsentscheidungen eingesetzt wird. Die Genauigkeit auf dem Trainingsdatensatz ist keine Garantie für die Effektivität im Feld.

Wie wirkt sich der AI Act auf den Einsatz von Algorithmen in der Archäologie aus?

KI-Systeme, die in Entscheidungsprozessen zum kulturellen Erbe und amtlichen Registern eingesetzt werden, können den Anforderungen für Hochrisiko- oder einflussreiche Systeme unterliegen. Das bedeutet Pflicht zur technischen Dokumentation, Risikobewertung und Auditierbarkeit. Rein unterstützende Systeme, die keine administrativen Entscheidungen generieren, haben geringere Anforderungen, aber die Erklärbarkeit der Ergebnisse bleibt unabhängig von Regulierungen eine gute Praxis.

Wie unterscheidet man ein nützliches KI-System von einem Tool, das das Problem nur verlagert?

Ein nützliches System reduziert den Arbeitsaufwand von Experten, ohne die Qualität der Klassifizierung zu beeinträchtigen oder zu verbessern. Warnsignale: Fehlende Informationen zur Konfidenzstufe im Ergebnis, kein Audit der Verzerrungen in den Trainingsdaten, keine Möglichkeit zur Überprüfung von Modellvorschlägen durch den Menschen. Wenn ein System Ergebnisse ohne Hinweise auf Einschränkungen liefert, verlagert es die Last der Überprüfung auf den Forscher, ohne ihm Werkzeuge dafür an die Hand zu geben. Mehr zu diesem Muster im Artikel über die Rolle des Menschen in KI-Prozessen.

Das Muster, das wir in der Archäologie sehen, deckt sich mit dem, was wir im Kontext von KI als wissenschaftlicher Assistent und Wissenschaftlern mit KI beschreiben: Geschwindigkeit und Skalierung liegen beim Algorithmus, Bewertung und Verantwortung beim Menschen. Wenn du ein ähnliches System zur Analyse von Forschungsdaten in deiner Organisation implementieren möchtest, hilft dir das Tool zur Bewertung der Einsatzbereitschaft, Lücken vor dem Start zu identifizieren.

Verwandte FallstudieMature Product Builder — ein gated Playbook, das die App selbst baut