AI für Controlling und Finanzen: OCR, Kostenanalyse und Mon…

AI für Controlling und Finanzen: OCR, Kostenanalyse und Monatsabschluss 2026

Die Controlling-Abteilung eines mittleren Produktionsunternehmens verarbeitet monatlich mehrere hundert Rechnungen, ordnet sie Kostenkonten zu, vergleicht die Ist-Werte mit dem Budget und liefert der Geschäftsführung innerhalb der ersten zwei Wochen nach Monatsabschluss einen Kommentar. Der Großteil dieser Arbeit besteht aus Datenverarbeitung, nicht aus Datenanalyse.

Wir bei Cashcrown untersuchen, in welchem Umfang AI diesen Zyklus tatsächlich verkürzt, wo echte Fehler auftreten und welche Bedingungen für eine sichere Implementierung in einer Umgebung erforderlich sind, in der Zahlen in Berichten Konsequenzen haben.

Datenextraktion aus Rechnungen: OCR und seine Grenzen

Der erste Schritt im Pipeline ist die Umwandlung eines Papierdokuments oder gescannten PDFs in strukturierte Daten. OCR führt diesen Schritt aus, aber seine Effektivität hängt in nicht zu unterschätzender Weise von der Qualität des Eingabedokuments ab.

Saubere, gedruckte Rechnungen direkt aus dem ERP-System des Lieferanten: Die Genauigkeit der Extraktion kritischer Felder (Rechnungsnummer, Steuernummer, Nettosumme, Mehrwertsteuerbetrag, Datum, Zahlungsfrist) liegt bei modernen visuellen Modellen typischerweise bei 97 bis 99 Prozent. Gescannte Rechnungen von Nadeldruckern, Handyfotos, Dokumente nach mehreren Kopien auf dem Kopierer: Die Genauigkeit sinkt auf 85 bis 95 Prozent, bei den schlechtesten Scans kann sie noch weiter fallen.

Das ist keine architektonische Schwäche, das ist die Physik der Dokumente. Die richtige Antwort auf diese Einschränkung ist nicht die Behauptung, dass „AI das schon schafft“, sondern der Entwurf einer manuellen Warteschlange: Dokumente mit einer Extraktionssicherheit unter einem Schwellenwert (z. B. unter 0,92 pro Schlüsselattribut) werden an den Controller weitergeleitet, bevor sie in ein Register einfließen.

Datenextraktion aus Rechnungen ist eine Aufgabe, bei der structured output (ein Modell, das JSON mit Feldern und Konfidenzniveau pro Feld zurückgibt) der Standard ist, keine Option. Die Schema-Validierung (Steuernummer mit 10 Ziffern, nicht-negativer Betrag, Datum im ISO-Format) erfolgt vor dem Speichern in der Datenbank. Inkonsistenzen werden in die Warteschlange gemeldet, nicht stillschweigend weitergeleitet.

Kostenklassifizierung und Kontenkodierung

Nach der Extraktion müssen Rechnungen einem Kostenkonto zugeordnet werden. In den meisten Unternehmen gibt es einen Kontenplan mit einigen Dutzend bis einigen hundert Positionen. Der Controller oder ein Mitarbeiter der Finanzabteilung ordnet jede Rechnung manuell zu, basierend auf dem Lieferanten, der Beschreibung der Ware oder Dienstleistung und dem eigenen Wissen über frühere Buchungen.

Ein AI-Klassifikator lernt aus der Historie der Freigaben: Das Paar (Lieferant, Positionsbeschreibung der Rechnung) zu (Kostenkonto) ist das Trainingssignal. Nach 3 bis 6 Monaten Historie klassifiziert das Modell 75 bis 90 Prozent der Rechnungen von bekannten Lieferanten korrekt, sofern der Kontenplan stabil ist. Neue Lieferanten, nicht standardisierte Beschreibungen und Änderungen im Kontenplan verringern die Sicherheit und werden zur manuellen Überprüfung weitergeleitet.

Wesentlicher Punkt: Das Modell bucht nicht eigenständig. Es schlägt ein Konto mit Konfidenzniveau und kurzer Begründung vor (z. B. „die letzten 14 Rechnungen dieses Lieferanten wurden auf Konto 4010-03, Büromaterial, gebucht“). Der Controller bestätigt mit einem Klick oder korrigiert. Die Korrektur fließt als Trainingssignal zurück.

Diese Feedbackschleife ist Voraussetzung für die Aufrechterhaltung der Qualität über die Zeit. Ohne sie driftet das Modell, wenn das Unternehmen die Kostenstruktur oder den Kontenplan ändert.

Abweichungsanalyse und Anomalieerkennung in den Büchern

Controlling besteht größtenteils darin, die Antwort auf die Frage zu finden: Warum weichen die Ist-Kosten vom Budget ab und ist die Abweichung gerechtfertigt? AI kann diesen Prozess beschleunigen, aber nicht unter das für Zuverlässigkeit erforderliche Niveau vereinfachen.

Die Abweichungsanalyse durch AI funktioniert in zwei Modi:

Statistischer Modus. Ein Zeitreihenmodell (z. B. Prophet oder ein einfaches lineares Modell mit saisonalen Mustern) vergleicht die Kosten des aktuellen Monats mit dem erwarteten Wert basierend auf der Historie und dem Budget. Abweichungen über einem festgelegten Schwellenwert (z. B. mehr als 8 Prozent und mehr als 5.000 PLN gleichzeitig) werden automatisch mit einem Vermerk markiert: Konto, Abweichungsbetrag, Richtung (über/unter Budget) und Jahresvergleich.

Semantischer Modus. Der Agent durchsucht den Kontext: Rechnungen, die mit dem Konto verknüpft sind, Notizen aus ERP-Systemen, Einkaufsdaten. Wenn ein Anstieg der Energiekosten um 22 Prozent mit der Inbetriebnahme einer neuen Produktionslinie zusammenfällt, kann das Modell diese Ereignisse verknüpfen und eine Begründung vorschlagen. Das ist keine sichere Diagnose, sondern eine Hypothese zur Überprüfung durch den Controller.

Art der Abweichung	Erkennungsmethode	Wer freigibt
Quantitativ (z. B. Kosten 10 % über Budget)	statistisches Modell, parametrischer Schwellenwert	Controller
Qualitativ (z. B. unerwarteter Lieferant)	Klassifikator + Denylist-Regeln	Controller + Einkaufsabteilung
Mögliche Rechnungsduplikate	Abgleich von Steuernummer + Betrag + Datum (7-Tage-Fenster)	Controller
Kosten außerhalb des gültigen Kontenplans	Schema-Validierung	Controller automatisch

Falsche Alarme (false positives) haben Kosten: Der Controller überprüft die Markierung und findet nichts. In unseren Beobachtungen gelingt es bei gut kalibriertem Schwellenwert, die Rate falscher Alarme unter 15 Prozent aller Markierungen zu halten. Ein zu empfindlicher Schwellenwert führt zu Alarmmüdigkeit, bei der reale Abweichungen ignoriert werden. Die Kalibrierung des Schwellenwerts ist eine kontinuierliche Aufgabe, keine einmalige.

Der Artikel AI zur Betrugserkennung behandelt die Architektur zur Erkennung finanzieller Anomalien ausführlicher, im Kontext von Transaktionen und Zahlungen.

▶Gestalte eine Abweichungsanalyse für das Controllingsandbox · reasoning

Entwurf des Kommentars zum Monatsabschluss

Der Managementkommentar zum Monatsbericht ist ein Dokument, das Zahlen mit einer Erzählung verbindet: Was ist passiert, warum und was bedeutet das für die Prognose. Das Schreiben von Grund auf nimmt einem erfahrenen Controller je nach Komplexität des Monats mehrere Stunden bis einen ganzen Tag in Anspruch.

AI kann diese Zeit um 50 bis 70 Prozent verkürzen, indem es einen Entwurf basierend auf den Daten generiert. Der Entwurf ist kein fertiger Bericht. Es ist eine erste Version der Struktur mit Daten, die an den entsprechenden Stellen eingefügt sind:

Umsatzabschnitt: Ist vs. Plan, prozentuale Abweichung, Top 3 Produktkategorien mit dem größten Einfluss.
Kostenabschnitt: Abweichungen über dem Schwellenwert, identifizierte Ursachen (Hypothesen aus der Kontextanalyse), Kategorien ohne Erklärung.
Cashflow-Abschnitt: Vergleich mit dem Vormonat, Schlüsselpositionen.
Prognose: Extrapolation basierend auf der bisherigen Performance und dem Zeitplan.

Der Controller liest den Entwurf, überprüft jede Zahl (Abstimmung mit den Büchern ist vor dem Versand obligatorisch), korrigiert die Erzählung und fügt Kontextwissen hinzu, das das Modell nicht hat: Informationen über neue Verträge, Änderungen der Rohstoffpreise, einmalige Ereignisse.

Explainability des Modells ist hier eine praktische Anforderung, keine akademische Diskussion. Jede Zahl im Entwurf sollte eine Spur zur Quelle haben: von welchem Konto sie stammt, aus welchem Zeitraum, welche Positionen in die Aggregation einfließen. Ohne dies muss der Controller jede Zahl von Grund auf neu überprüfen, was den Zeitgewinn zunichtemacht.

RODO und personenbezogene Daten in der Finanzwelt

Finanzdaten sind selten anonym. Rechnungen enthalten Steuernummern (die eine natürliche Person identifizieren können, die ein Gewerbe betreibt), Namen und Adresse des Firmeninhabers. Kostenberichte pro Mitarbeiter sind personenbezogene Daten im Sinne der RODO. Gehaltslisten in AI-Pipelines sind ein besonders sensibler Bereich.

Drei Prinzipien, die bei jeder AI-Implementierung im Controlling gelten:

Erstens: Personenbezogene Daten werden vor der Weitergabe an ein externes Modell maskiert. Steuernummern natürlicher Personen, Namen auf Rechnungen und Daten aus Gehaltslisten werden in der Ingestionsschicht tokenisiert. Das Modell sieht einen Identifikator, keine Daten. Die Detokenisierung erfolgt auf der Anwendungsseite.

Zweitens: AI-Systeme, die Kosten pro Mitarbeiter klassifizieren oder Effizienzrankings von Abteilungen generieren, können als Hochrisikosysteme gemäß Anhang III des AI Act eingestuft werden. Ein solches System erfordert eine DPIA-Bewertung und eine formelle menschliche Aufsicht über jede Entscheidung, die eine Person betrifft.

Drittens: Self-Hosting des Modells ist der Standard für Daten, die unter das Finanzgeheimnis, NDA oder vertragliche Vertraulichkeitspflichten fallen. Es gibt keine Ausnahme für „vertrauenswürdige Cloud-Anbieter“, die von der Risikobewertung befreien würde.

Der Artikel AI zur Dokumentenanalyse behandelt detailliert das Muster zur Maskierung von PII und die Isolierung von Indizes pro Projekt.

Implementierungsarchitektur und Verantwortungsgrenzen

Eine sichere AI-Architektur für das Controlling hat eine klare Aufteilung: Was AI eigenständig erledigt, was es vorschlägt und was immer eine menschliche Entscheidung erfordert.

Schritt	AI-Autonomie	Obligatorisches Human-Gate
Extraktion von Feldern aus Rechnungen	ja, bei Konfidenz über Schwellenwert	ja, bei Konfidenz unter Schwellenwert
Klassifizierung des Kostenkontos	Vorschlag mit Begründung	immer vor der Buchung
Markierung von Abweichungen	ja, gemäß kalibriertem Schwellenwert	ja, Entscheidung über Eskalation
Entwurf des Managementkommentars	ja, erste Version	ja, Überprüfung und Unterschrift
Freigabe für die Berichterstattung	niemals	immer Controller

Human-oversight bei der Freigabe für die Berichterstattung ist keine übertriebene Vorsicht. Es ist eine Audit-Anforderung. Der Wirtschaftsprüfer fragt, wer die Zahl freigegeben hat. „Das Modell hat freigegeben“ ist eine Antwort, die keinen Standard der internen Kontrolle erfüllt.

Der Audit-Trail muss umfassen: wer jede Markierung und Klassifizierung freigegeben hat, wann, auf Basis welcher Daten und ob eine Korrektur vorgenommen wurde. Systeme ohne vollständiges Freigabelog erfüllen nicht die Anforderungen regulierter Umgebungen.

Der Artikel AI für Datenanalyse und BI beschreibt die Architektur der NL2SQL- und semantischen Schicht, die den Controlling-Pipeline auf der Seite der Ad-hoc-Analyse gut ergänzt. Ein ganzheitlicher Ansatz zur Implementierung inklusive Kostenaufstellung wird im Artikel Wie misst man den ROI von AI? beschrieben, und das Management der Eingabedaten für das System behandelt Daten-Governance für AI.

FAQ

Welche Genauigkeit erreicht OCR bei der Datenextraktion aus Rechnungen?

Für saubere, gedruckte Rechnungen (digitales PDF oder hochwertiger Laserdruck) erreichen moderne visuelle Modelle eine Genauigkeit von 97 bis 99 Prozent bei kritischen Feldern: Steuernummer, Betrag, Datum, Rechnungsnummer. Bei Scans niedriger Qualität, alten Nadeldruckern oder Handyfotos sinkt die Genauigkeit auf 85 bis 95 Prozent, bei extrem schlechten Dokumenten noch weiter. Die richtige Antwort auf diese Variabilität ist eine manuelle Überprüfungswarteschlange für Dokumente mit einer Konfidenz unter einem festgelegten Schwellenwert, nicht die Behauptung, dass OCR immer gut funktioniert.

Kann AI Rechnungen eigenständig im ERP-System buchen?

Sollte es nicht, zumindest nicht ohne ein klares Berechtigungs- und Freigabemodell. AI kann ein Kostenkonto mit Begründung und Historie früherer Buchungen für diesen Lieferanten vorschlagen. Aber der Eintrag in das Buchungsregister sollte die Freigabe durch eine berechtigte Person erfordern. Automatische Buchung ohne Aufsicht ist technisch möglich, bedeutet aber den Verzicht auf interne Kontrolle, die von Rechnungslegungs- und Audit-Standards gefordert wird.

Was kostet ein falscher Alarm in der Abweichungsanalyse?

Die Kosten eines einzelnen falschen Alarms sind die Zeit, die der Controller für die Überprüfung der Markierung benötigt, typischerweise 10 bis 30 Minuten. Bei 20 Markierungen pro Monat und einer False-Positive-Rate von 30 Prozent sind das 6 unnötige Überprüfungen, also zwischen einer und drei Stunden verlorener Zeit. Ein zu empfindlicher Schwellenwert macht den Automatisierungsgewinn zunichte. Die Kalibrierung des Schwellenwerts auf historischen Daten mehrerer Monate ermöglicht es normalerweise, unter 15 Prozent falsche Alarme zu kommen, was das System tatsächlich nützlich macht.

Können Finanzdaten des Unternehmens an ein externes AI-Modell weitergegeben werden?

Das hängt von der Art der Daten und den Verträgen ab. Nicht-personenbezogene, aggregierte Daten ohne Geschäftsgeheimnisse: Mit einem entsprechenden Auftragsverarbeitungsvertrag (Art. 28 RODO) und einer Risikobewertung kann man externe APIs nutzen. Daten, die unter das Finanzgeheimnis, NDA oder personenbezogene Daten von Mitarbeitern und Lieferanten fallen: Hier ist Self-Hosting des Modells der Standard oder zumindest die Maskierung von PII vor dem Senden an eine externe API, mit Dokumentation der Rechtsgrundlage für die Verarbeitung. Es gibt keine einheitliche Antwort für alle Unternehmen, aber es besteht die Pflicht, diese Bewertung vor der Inbetriebnahme durchzuführen.

Wie lange dauert die Implementierung von AI für das Controlling?

Ein Pilot, der die Rechnungsextraktion von einer Lieferantenkategorie und den automatischen Vorschlag zur Kostenklassifizierung umfasst: 4 bis 8 Wochen, vorausgesetzt, es gibt Zugang zu 3 bis 6 Monaten Historie von Freigaben als Trainingsdaten. Der volle Umfang mit Abweichungsanalyse, Entwurf des Kommentars und ERP-Integration: 3 bis 5 Monate, abhängig vom Zustand der Daten und der Anzahl der zu integrierenden Systeme. Der Großteil der Zeit in einem solchen Projekt entfällt auf die Arbeit mit Daten und die Definition von Geschäftsregeln, nicht auf die Konfiguration des Modells.

Verwandte FallstudieEin LLM-Gateway für den gesamten KI-Verkehr