Der Kundenservice eines Softwareunternehmens verbringt täglich mehrere Stunden damit, dieselben Fragen zu beantworten: wie man das Passwort zurücksetzt, welche Vertragsbedingungen gelten oder wann die Rechnung ausgestellt wird. Das Wissen ist vorhanden, die Dokumente sind da, aber jeder Berater sucht die Antworten separat – in Confluence, Notion oder alten E-Mail-Threads. Das ist kein Wissensmangel. Es ist ein Problem des Zugangs zum Wissen im richtigen Moment. Ein unternehmensinterner KI-Assistent auf Dokumentenbasis löst genau das.
Worin unterscheidet sich ein Unternehmens-GPT von einem gewöhnlichen Chatbot
#„Chatbot“ und „RAG-Assistent“ sind zwei unterschiedliche Architekturen, die man vor der Technologieentscheidung unterscheiden sollte:
| Merkmal | Gewöhnlicher Chatbot / Fine-Tuning | RAG-Assistent auf Wissensbasis |
|---|---|---|
| Antwortquelle | Wissen, das in den Modellgewichten kodiert ist | Ihre Dokumente, live indexiert |
| Aktualität | Erfordert erneutes Training nach Änderungen | Einfache Reindexierung der Wissensbasis reicht aus |
| Risiko von Halluzinationen | Hoch (Modell interpoliert, was es nicht weiß) | Gering bei guter Guardrails-Konfiguration |
| Quellenangabe | Fehlt | Dokumentenausschnitt + Link / Seitenzahl |
| Kosten der Wissensaktualisierung | Hoch (Fine-Tuning bei jeder Änderung) | Gering (Reindexierung neuer Dateien) |
| Kontrolle des Umfangs | Schwierig | Durch Konstruktion eingebaut |
Praktische Regel: Wenn sich Ihr Wissen häufiger als einmal pro Quartal ändert (und in den meisten Unternehmen ändert es sich w der Regel wöchentlich), ist RAG die richtige Architektur. Fine-Tuning überlassen Sie Modellen, die sich auf Stil und Format spezialisieren, nicht auf aktuelle Fakten.
Wie RAG Schritt für Schritt funktioniert
#Um das System gut zu gestalten, lohnt es sich, jeden Schritt im Verarbeitungspipeline zu verstehen:
Indexierung (einmalig, dann inkrementell): Jedes Dokument wird in Fragmente (Chunks) unterteilt. Jedes Fragment durchläuft ein Embedding-Modell – bei uns BGE-M3, das lokal läuft – und wird in einen numerischen Vektor umgewandelt. Die Vektoren gelangen in die Vektordatenbank. In dieser Phase verlässt kein Text Ihre Infrastruktur.
Anfrage (in Echtzeit): Der Nutzer stellt eine Frage. Die Frage wird mit demselben Modell vektorisiert. Die semantische Suche extrahiert 3–8 Dokumentenfragmente mit der größten Ähnlichkeit zur Frage. Optional wenden wir Reranking an, das die Fragmente vor der Übergabe an das Modell nach Relevanz neu sortiert.
Antwortgenerierung: Das Sprachmodell (über einen LLM-Router) erhält die Frage plus die extrahierten Fragmente im Kontext. Die Antwort wird ausschließlich auf deren Grundlage formuliert. Wenn die Fragmente keine Antwort enthalten, sagt das Modell direkt: „Diese Information ist nicht in der Wissensbasis enthalten“ und schlägt vor, einen Menschen zu kontaktieren.
Dieser letzte Punkt ist der Unterschied zwischen einem Assistenten, dem man vertrauen kann, und einem, der höflich erfindet. Guardrails erzwingen das Eingeständnis von Wissenslücken statt der Interpolation von Antworten.
Welches Wissen kann indexiert werden
#Fast jedes strukturierte Format funktioniert gut. Hier ist, was wir in einer typischen Implementierung unterstützen:
- Word-Dokumente / PDFs – Verfahren, Richtlinien, Produktspezifikationen, Handelsangebote
- FAQs und Help Center – Inhalte exportiert aus Zendesk, Intercom, Notion, Confluence
- Produktdatenbank – Beschreibung, Parameter, Preisspannen, Lieferbedingungen (JSON / CSV)
- E-Mails und Threads – Kundenservice-Historie als Fallbasis (mit PII-Anonymisierung)
- Transkriptionen von Gesprächen – besonders wertvoll im After-Sales-Service
Was wir zu Beginn vermeiden: Dokumente mit vielen bildbasierten Tabellen (gescannte PDFs ohne Textlayer), Wissensbasen mit widersprüchlichen Versionen derselben Informationen ohne Kennzeichnung „gültig ab / zurückgezogen“ und vollständige Repositories – wir indexieren Dokumentation, keinen Code.
Gute Regel: Bevor Sie tausend Dateien indexieren, indexieren Sie hundert der wichtigsten und messen Sie die Treffergenauigkeit der Antworten. Die Qualität der Wissensbasis bestimmt die Obergrenze der Assistentenqualität, nicht umgekehrt.
Sicherheitsschicht: keine Option
#Ein unternehmensinterner Assistent arbeitet mit Daten, die wertvoll sind und deren Leckage Kosten verursacht. Deshalb entwerfen wir Sicherheit von der ersten Codezeile an, nicht als nachträglichen Zusatz.
PII wird vor der Cloud maskiert. Wenn Dokumente personenbezogene Daten enthalten, maskieren wir sie, bevor sie an ein Cloud-Modell gesendet werden. Alternativ läuft der gesamte Stack (Embedding + Modell) lokal auf Ihrer Infrastruktur (Self-Hosting).
Guardrails überwachen den Umfang. Das System antwortet nur auf Fragen, die durch die Wissensbasis abgedeckt sind. Fragen zu Themen außerhalb des Rahmens (z. B. Bitte um Code-Erstellung oder politische Meinung) werden mit einer Nachricht abgelehnt und bieten die Option, zu einem Menschen zu wechseln.
Injection und Prompt-Angriffe. Guardrails filtern die Nutzereingabe, bevor sie zum Modell gelangt – sie blockieren Versuche, Geheimnisse aus dem Kontext zu extrahieren, Instruktionen einzuschleusen und Prompt-Angriffe.
Human-Handoff für Fälle außerhalb der Kompetenz. Ein Assistent, der etwas nicht weiß, rät nicht – er übergibt das Gespräch an einen Menschen mit vollem Thread-Kontext. Ohne dies wird jeder Modellfehler zum Problem des Kunden. Mehr zu diesem Muster im Artikel über Sicherheit von KI-Agenten.
Logs und Nachvollziehbarkeit. Jede Anfrage und jede Antwort werden ohne PII protokolliert – nicht, um Nutzer zu überwachen, sondern um eine Spur für Audits, Qualitätsmessung und RODO-Konformität zu haben. Diese Spur ist eine Anforderung des AI Act, keine Option.
Wo ein unternehmensinterner Assistent den größten Hebel bietet
#Drei Arten von Implementierungen, die wir am häufigsten sehen und die sich am schnellsten rentieren:
Kundenservice und Helpdesk. Der Assistent bearbeitet 40–70% der wiederholten Fragen ohne menschliches Zutun. Der Berater sieht übergebene Gespräche mit vollem Kontext – er beginnt nicht mit „Worum geht es?“. Messbares Ergebnis: Zeit bis zur ersten Antwort, Anteil der Tickets, die ohne Eskalation abgeschlossen werden.
Interne Wissensbasis für Mitarbeiter. Die Einarbeitung neuer Mitarbeiter verkürzt sich um mehrere bis einige Dutzend Stunden, da Fragen an erfahrene Kollegen durch einen Assistenten ersetzt werden, der auf den Dokumenten der Abteilung basiert. Messbares Ergebnis: Anzahl der Anfragen an das interne Team, Einarbeitungszeit.
Verkaufsassistent vor dem Angebot. Ein Vertriebsmitarbeiter oder Kunde auf der Website kann nach Verfügbarkeit, Parametern und Bedingungen fragen, ohne auf eine E-Mail-Antwort warten zu müssen. Messbares Ergebnis: Zeit von der Anfrage bis zum Angebot, Konversionsrate.
In jedem dieser Fälle ist der Ausgangspunkt derselbe: ein eng definierter, gut beschriebener Wissensbereich, eine gemessene Baseline (wie viel Zeit nimmt es heute in Anspruch?), ein Pilotprojekt mit realem Traffic. Prüfen Sie die Bewertung der Bereitschaft Ihres Unternehmens, bevor Sie den Umfang planen.
Zeit und Kosten: Was zu erwarten ist
#Ein unternehmensinterner Assistent ist ein Ingenieursprojekt, keine einmalige Plattformkonfiguration. Ein realistisches Bild der Implementierung:
Pilotprojekt (ein Wissensbereich): in der Regel einige Wochen von der Dokumentenvorbereitung bis zum funktionierenden System mit messbaren Ergebnissen. Die genauen Zeiträume hängen vom Umfang ab – berechnen Sie es mit dem ROI-Rechner.
Was nimmt Zeit in Anspruch? Nicht das Modell, nicht die Infrastruktur. Die Vorbereitung und Bereinigung der Wissensbasis (widersprüchliche Versionen, Duplikate, fehlende Metadaten) macht in der Regel 30–50% des gesamten Pilotaufwands aus. Deshalb beginnen wir mit einem Dokumenten-Audit, nicht mit der Modellkonfiguration.
Wartungskosten. Die Indexierung neuer Dokumente ist eine kostengünstige Operation. Die variable Kostengröße ist die Anzahl der Anfragen an das Cloud-Modell – Sie können sie im Voraus mit dem Inference-Rechner schätzen. Bei hohem Traffic oder sensiblen Daten ist ein lokales Modell oft die bessere Wahl.
Wo wir KEINE Versprechungen machen: Wir geben keine Festpreise oder festen Termine vor einem Umfangsaudit an. Die Skala der Implementierung (ein Bereich vs. ganzes Unternehmen) verändert die Zahlen um eine Größenordnung. Der Einstiegspunkt ist immer ein Pilotprojekt mit festen Kosten – kontaktieren Sie uns mit einer Beschreibung Ihres Prozesses.
Live ausprobieren
#Beschreiben Sie Ihre Wissensbasis und den Hauptanwendungsfall, und das Modell zeigt, wie der Indexierungsprozess und der Umfang der Guardrails zu gestalten sind – als Ausgangspunkt, nicht als fertiges Projekt (Playground: PII maskiert, keine Retention):
FAQ
#Worin unterscheidet sich ein Unternehmens-GPT von ChatGPT?
#ChatGPT antwortet aus dem allgemeinen Wissen, das im Modell kodiert ist – es weiß nichts über Ihre Dokumente oder Verfahren. Ein RAG-Assistent auf Wissensbasis antwortet ausschließlich aus Ihrer Wissensbasis: Jede Antwort hat eine Quelle in einem konkreten Dokumentenausschnitt. Außerhalb des Umfangs der Wissensbasis sagt es direkt „Diese Information habe ich nicht“, statt zu interpolieren.
Gelangen unsere Daten in die Cloud?
#Das hängt von der gewählten Architektur ab. Bei einem lokalen Modell (Self-Hosting) läuft der gesamte Stack auf Ihrer Infrastruktur, und kein Text verlässt das Firmennetzwerk. Bei einem Cloud-Modell maskieren wir PII vor dem Senden der Anfrage. Die Wahl hängt von der Sensibilität der Daten und den RODO-Anforderungen ab – wir besprechen dies in der Pilotphase.
Wie groß muss die Wissensbasis sein?
#Es gibt keine Mindestschwelle. Pilotprojekte beginnen wir mit einigen Dutzend gut vorbereiteten Dokumenten. Wichtiger als die Menge ist die Qualität und Konsistenz: Ein gut beschriebener Wissensbereich ohne widersprüchliche Versionen liefert bessere Ergebnisse als tausend ungeordnete Dateien. Die Qualität der Wissensbasis bestimmt die Obergrenze der Assistentenqualität.
Kann sich der Assistent irren?
#Ja. Jedes RAG-System hat eine Fehlerquote, insbesondere bei Grenzfragen und Dokumenten mit mehrdeutigen Inhalten. Deshalb erzwingen Guardrails die Antwort „Ich weiß es nicht“ statt zu raten, wir protokollieren jede Antwort für Qualitätsaudits, und die Implementierung in kritischen Pfaden beinhaltet immer Human-Handoff. Der Assistent soll den Menschen entlasten, nicht dort ersetzen, wo Fehler Kosten verursachen.
Wie lange dauert die Implementierung?
#Ein Pilotprojekt für einen Wissensbereich dauert in der Regel einige Wochen von der Bereitstellung der Dokumente bis zum funktionierenden System mit ersten Messungen. Die größte Variable ist die Vorbereitung der Wissensbasis auf Ihrer Seite. Die volle Skalierung und der Zeitplan erfordern ein Umfangsaudit – kontaktieren Sie uns, um mit einer konkreten Zahl zu beginnen.