Das ist eine der ersten Fragen bei der Implementierung von KI im Unternehmen: Wie bringt man das Modell dazu, auf Basis des eigenen Wissens zu antworten – und nicht auf allgemeiner Grundlage? Es gibt zwei Wege – und meistens werden sie verwechselt oder der teurere ohne Not gewählt.
RAG: Erst suchen, dann antworten
#RAG (Retrieval-Augmented Generation) sucht zunächst relevante Ausschnitte aus Ihrer Datenbank und lässt das Modell dann ausschließlich auf deren Basis antworten, mit Zitaten. Das Wissen liegt außerhalb des Modells – in einer Vektordatenbank – daher:
- Sie aktualisieren Daten ohne Retraining des Modells,
- Antworten haben zitierbare Quellen (weniger Halluzinationen),
- bei schlechter Passung eskaliert das System zum Menschen, statt zu erfinden.
Embeddings werden lokal mit dem Modell BGE-M3 berechnet, sodass der zu embeddende Inhalt Ihre Infrastruktur nicht verlässt.
Fine-Tuning: Verhalten des Modells ändern
#Fine-Tuning trainiert das Modell mit Ihren Beispielen nach und verändert dessen Gewichte – es festigt Stil, Ton und Ausgabeformat. Das ist mächtig, wenn es um einen konsistenten „Stimme“ oder ein sehr spezifisches Format geht, das ein Prompt nicht erzwingen kann. Aber es ist kostspielig und eignet sich nicht für aktuelle Fakten: Neues Wissen würde ein weiteres Training erfordern.
Wann welcher Ansatz
#| Kriterium | RAG | Fine-Tuning |
|---|---|---|
| Aktuelle/frische Daten | ja | nein |
| Implementierungskosten | niedrig | hoch |
| Aktualisierung ohne Retraining | ja | nein |
| Kontrolle über Stil/Verhalten | teilweise | vollständig |
| Halluzinationsrisiko | niedrig | mittel |
| Zitierbare Quellen | ja | nein |
Faustregel: Wenn das Problem der Zugang zu Wissen ist (Kunden finden keine Antworten) – RAG. Wenn das Problem ein dauerhafter Stil/Format ist – Fine-Tuning. Oft ist die optimale Lösung eine Hybridlösung: RAG bringt Fakten ein, leichtes Fine-Tuning festigt die Stimme. Gehen Sie dies konkret im Entscheidungsbaum durch.
Was wir mit RAG bauen
#RAG ist die Grundlage von Concierge RAG – einem Assistenten auf Ihrem Wissen mit Zitaten, Mehrsprachigkeit und Eskalation zum Menschen. Dasselbe Muster treibt den mehrsprachigen Helpdesk und die Dokumentenintelligenz an.
Live ausprobieren
#Fügen Sie eigenen Text ein und stellen Sie eine Frage – Sie sehen RAG mit Live-Zitaten (derselbe Sandbox wie im Playground: keine Retention, PII maskiert).
FAQ
#RAG oder Fine-Tuning – was wählt man für den Start?
#Meistens RAG. Es ist günstiger, ohne Retraining aktualisierbar und liefert zitierbare Quellen. Fine-Tuning macht Sinn, wenn Sie eine dauerhafte Änderung von Stil oder Format benötigen – nicht für aktuelle Fakten. Viele Implementierungen starten mit RAG und fügen erst später leichtes Fine-Tuning hinzu, wenn es auf eine konsistente „Stimme“ ankommt.
Muss RAG Daten in die Cloud senden?
#Nein. Embeddings und Suche halten wir lokal (BGE-M3 + Qdrant), und in die Cloud geht nur der maskierte Prompt – ohne PII. Sensible Daten und ganze On-Prem-Implementierungen verlassen Ihre Infrastruktur nicht.
Verringert Fine-Tuning Halluzinationen?
#Nicht so wie RAG. Fine-Tuning festigt den Stil, aber das Modell kann trotzdem „erfinden“, wenn es einen Fakt nicht kennt. RAG mit Zitaten und einem Sicherheitsschwellenwert (Eskalation zum Menschen bei schlechter Passung) ist der Hauptschutz vor Halluzinationen.