RAG oder Fine-Tuning: Wie man einem Modell Unternehmenswiss…

RAG-Pipeline: Antwort aus Ihren Quellen, mit Quellenangabe — nicht aus dem Modellgedächtnis.

Das ist eine der ersten Fragen bei der Implementierung von KI im Unternehmen: Wie bringt man das Modell dazu, auf Basis des eigenen Wissens zu antworten – und nicht auf allgemeiner Grundlage? Es gibt zwei Wege – und meistens werden sie verwechselt oder der teurere ohne Not gewählt.

RAG: Erst suchen, dann antworten#

RAG (Retrieval-Augmented Generation) sucht zunächst relevante Ausschnitte aus Ihrer Datenbank und lässt das Modell dann ausschließlich auf deren Basis antworten, mit Zitaten. Das Wissen liegt außerhalb des Modells – in einer Vektordatenbank – daher:

Sie aktualisieren Daten ohne Retraining des Modells,
Antworten haben zitierbare Quellen, was Halluzinationen reduziert, wenn das Retrieval treffsicher ist und ein Sicherheitsschwellenwert gesetzt wird,
bei schlechter Passung eskaliert das System zum Menschen, statt zu erfinden.

Embeddings werden lokal mit dem Modell BGE-M3 berechnet, sodass der zu embeddende Inhalt Ihre Infrastruktur nicht verlässt.

Fine-Tuning: Verhalten des Modells ändern#

Fine-Tuning trainiert das Modell mit Ihren Beispielen nach und verändert dessen Gewichte – es festigt Stil, Ton und Ausgabeformat. Das ist mächtig, wenn es um einen konsistenten „Stimme“ oder ein sehr spezifisches Format geht, das ein Prompt nicht erzwingen kann. Aber es ist kostspielig und eignet sich nicht für aktuelle Fakten: Neues Wissen würde ein weiteres Training erfordern.

Wann welcher Ansatz#

Kriterium	RAG	Fine-Tuning
Aktuelle/frische Daten	ja	nein
Implementierungskosten	niedrig	hoch
Aktualisierung ohne Retraining	ja	nein
Kontrolle über Stil/Verhalten	teilweise	vollständig
Halluzinationsrisiko	niedrig (mit Sicherheitsschwellenwert)	mittel
Zitierbare Quellen	ja	nein
Zeit bis zu ersten Ergebnissen	Wochen	Monate
Benötigte Datenmenge	wenig (Dokumente)	viel (Trainingspaare)

Faustregel: Wenn das Problem der Zugang zu Wissen ist (Kunden finden keine Antworten) – RAG. Wenn das Problem ein dauerhafter Stil/Format ist – Fine-Tuning. Oft ist die optimale Lösung eine Hybridlösung: RAG bringt Fakten ein, leichtes Fine-Tuning festigt die Stimme. Gehen Sie dies konkret im Entscheidungsbaum durch.

Wenn Sie zum Fine-Tuning tendieren, sehen Sie sich an, wann Fine-Tuning wirklich Sinn ergibt – und wann es ein kostspieliger Fehler ist.

Der häufigste Fehler: Fine-Tuning auf Dokumenten#

Der häufigste Irrtum lautet: „Wir wollen, dass das Modell unsere Dokumente kennt.“ Das ist keine Aufgabe für Fine-Tuning – Fine-Tuning verändert Stil und Verhalten, es ist kein faktografisches Gedächtnis, also kann das Modell weiterhin Fakten halluzinieren, nur in Ihrem Stil. Wissen aus Dokumenten ist eine RAG-Aufgabe mit Quellenzitaten.

Zweitens – Größenordnungen: Einen RAG-Piloten starten Sie in Wochen, Fine-Tuning bedeutet dagegen Monate an Arbeit plus GPUs, Trainingsdaten (mindestens einige hundert gute Eingabe-Ausgabe-Paare) und die Pflege aufeinanderfolgender Versionen. Die vollständige Liste der Fälle, in denen Fine-Tuning gerechtfertigt oder ein Fehler ist, schlüsseln wir im Artikel Wann Fine-Tuning Sinn ergibt auf.

Was wir mit RAG bauen#

RAG ist die Grundlage von Concierge RAG – einem Assistenten auf Ihrem Wissen mit Zitaten, Mehrsprachigkeit und Eskalation zum Menschen. Dasselbe Muster treibt den mehrsprachigen Helpdesk und die Dokumentenintelligenz an.

Live ausprobieren#

Fügen Sie eigenen Text ein und stellen Sie eine Frage – Sie sehen RAG mit Live-Zitaten (derselbe Sandbox wie im Playground: keine Retention, PII maskiert).

▶Ausschnitt zu RAG zusammenfassensandbox · summarize

FAQ#

RAG oder Fine-Tuning – was wählt man für den Start?#

Meistens RAG. Es ist günstiger, ohne Retraining aktualisierbar und liefert zitierbare Quellen. Fine-Tuning macht Sinn, wenn Sie eine dauerhafte Änderung von Stil oder Format benötigen – nicht für aktuelle Fakten. Viele Implementierungen starten mit RAG und fügen erst später leichtes Fine-Tuning hinzu, wenn es auf eine konsistente „Stimme“ ankommt.

Muss RAG Daten in die Cloud senden?#

Nein. Embeddings und Suche halten wir lokal (BGE-M3 + Qdrant), und in die Cloud geht nur der maskierte Prompt – ohne PII. Sensible Daten und ganze On-Prem-Implementierungen verlassen Ihre Infrastruktur nicht.

Verringert Fine-Tuning Halluzinationen?#

Nicht so wie RAG. Fine-Tuning festigt den Stil, aber das Modell kann trotzdem „erfinden“, wenn es einen Fakt nicht kennt. RAG mit Zitaten und einem Sicherheitsschwellenwert (Eskalation zum Menschen bei schlechter Passung) ist der Hauptschutz vor Halluzinationen.

RAG-Pipeline: Antwort aus Ihren Quellen, mit Quellenangabe — nicht aus dem Modellgedächtnis.

RAG: Erst suchen, dann antworten#

Sie aktualisieren Daten ohne Retraining des Modells,
Antworten haben zitierbare Quellen, was Halluzinationen reduziert, wenn das Retrieval treffsicher ist und ein Sicherheitsschwellenwert gesetzt wird,
bei schlechter Passung eskaliert das System zum Menschen, statt zu erfinden.

Embeddings werden lokal mit dem Modell BGE-M3 berechnet, sodass der zu embeddende Inhalt Ihre Infrastruktur nicht verlässt.

Fine-Tuning: Verhalten des Modells ändern#

Wann welcher Ansatz#

Kriterium	RAG	Fine-Tuning
Aktuelle/frische Daten	ja	nein
Implementierungskosten	niedrig	hoch
Aktualisierung ohne Retraining	ja	nein
Kontrolle über Stil/Verhalten	teilweise	vollständig
Halluzinationsrisiko	niedrig (mit Sicherheitsschwellenwert)	mittel
Zitierbare Quellen	ja	nein
Zeit bis zu ersten Ergebnissen	Wochen	Monate
Benötigte Datenmenge	wenig (Dokumente)	viel (Trainingspaare)

Wenn Sie zum Fine-Tuning tendieren, sehen Sie sich an, wann Fine-Tuning wirklich Sinn ergibt – und wann es ein kostspieliger Fehler ist.

Der häufigste Fehler: Fine-Tuning auf Dokumenten#

Was wir mit RAG bauen#

Live ausprobieren#

Fügen Sie eigenen Text ein und stellen Sie eine Frage – Sie sehen RAG mit Live-Zitaten (derselbe Sandbox wie im Playground: keine Retention, PII maskiert).

RAG oder Fine-Tuning: Wie man einem Modell Unternehmenswissen vermittelt

RAG: Erst suchen, dann antworten#

Fine-Tuning: Verhalten des Modells ändern#

Wann welcher Ansatz#

Der häufigste Fehler: Fine-Tuning auf Dokumenten#

Was wir mit RAG bauen#

Live ausprobieren#

FAQ#

RAG oder Fine-Tuning – was wählt man für den Start?#

Muss RAG Daten in die Cloud senden?#

Verringert Fine-Tuning Halluzinationen?#

RAG oder Fine-Tuning: Wie man einem Modell Unternehmenswissen vermittelt

RAG: Erst suchen, dann antworten#

Fine-Tuning: Verhalten des Modells ändern#

Wann welcher Ansatz#

Der häufigste Fehler: Fine-Tuning auf Dokumenten#

Was wir mit RAG bauen#

Live ausprobieren#

FAQ#

RAG oder Fine-Tuning – was wählt man für den Start?#

Muss RAG Daten in die Cloud senden?#

Verringert Fine-Tuning Halluzinationen?#