Unternehmens-GPT: KI-Assistent auf Ihrer Wissensbasis

RAG-Pipeline: Antwort aus Ihren Quellen, mit Quellenangabe — nicht aus dem Modellgedächtnis.

Der Kundenservice eines Softwareunternehmens verbringt täglich mehrere Stunden damit, dieselben Fragen zu beantworten: wie man das Passwort zurücksetzt, welche Vertragsbedingungen gelten oder wann die Rechnung ausgestellt wird. Das Wissen ist vorhanden, die Dokumente sind da, aber jeder Berater sucht die Antworten separat – in Confluence, Notion oder alten E-Mail-Threads. Das ist kein Wissensmangel. Es ist ein Problem des Zugangs zum Wissen im richtigen Moment. Ein unternehmensinterner KI-Assistent auf Dokumentenbasis löst genau das.

Worin unterscheidet sich ein Unternehmens-GPT von einem gewöhnlichen Chatbot#

„Chatbot“ und „RAG-Assistent“ sind zwei unterschiedliche Architekturen, die man vor der Technologieentscheidung unterscheiden sollte:

Merkmal	Gewöhnlicher Chatbot / Fine-Tuning	RAG-Assistent auf Wissensbasis
Antwortquelle	Wissen, das in den Modellgewichten kodiert ist	Ihre Dokumente, live indexiert
Aktualität	Erfordert erneutes Training nach Änderungen	Einfache Reindexierung der Wissensbasis reicht aus
Risiko von Halluzinationen	Hoch (Modell interpoliert, was es nicht weiß)	Gering bei guter Guardrails-Konfiguration
Quellenangabe	Fehlt	Dokumentenausschnitt + Link / Seitenzahl
Kosten der Wissensaktualisierung	Hoch (Fine-Tuning bei jeder Änderung)	Gering (Reindexierung neuer Dateien)
Kontrolle des Umfangs	Schwierig	Durch Konstruktion eingebaut

Praktische Regel: Wenn sich Ihr Wissen häufiger als einmal pro Quartal ändert (und in den meisten Unternehmen ändert es sich w der Regel wöchentlich), ist RAG die richtige Architektur. Fine-Tuning überlassen Sie Modellen, die sich auf Stil und Format spezialisieren, nicht auf aktuelle Fakten.

Fertige Plattform oder eigene Implementierung?#

Bevor Sie Architekturen vergleichen, lohnt es sich, die Kaufalternativen zu vergleichen. Ein ernsthafter Käufer fragt: „Warum selbst bauen, wenn Microsoft 365 Copilot, ChatGPT Enterprise oder Glean unser SharePoint und Confluence bereits indexieren?“ Die ehrliche Antwort: Für generisches Q&A über Daten in einem einzigen Ökosystem ist eine fertige Plattform schnell und oft ausreichend. Eine eigene Implementierung gewinnt, sobald mindestens eine dieser Anforderungen auftritt:

Nicht standardisierte Quellen – eine Produktdatenbank (CSV/JSON), Gesprächstranskripte, E-Mail-Threads, Daten außerhalb eines einzigen Ökosystems.
Self-Hosting und Datenresidenz – der gesamte Stack (Self-Hosting) auf Ihrer Infrastruktur, Daten verlassen das Land nicht.
Eigene Guardrails und Umfang – harte Kontrolle darüber, worauf der Assistent antwortet, plus eine auditierbare Spur für den AI Act und die DSGVO.
Kein Vendor Lock-in und Kosten bei Skalierung – fertige Plattformen rechnen pro Sitz/pro Nachricht ab; die eigene auf Ihrem eigenen Router ergibt vorhersehbare Kosten.

Am häufigsten ist der beste Weg hybrid: eine fertige Plattform dort, wo sie ausreicht, ein eigener Assistent für den Prozess, in dem Ihre Daten und die Integration zählen. Vollständige Kriterien und eine Entscheidungstabelle: eigener Assistent oder fertiger sowie der Build-vs-Buy-Vergleich; was Sie für einen konkreten Fall wählen sollten, schlägt der Stack-Auswahlhelfer vor.

Wie RAG Schritt für Schritt funktioniert#

Um das System gut zu gestalten, lohnt es sich, jeden Schritt im Verarbeitungspipeline zu verstehen:

Indexierung (einmalig, dann inkrementell): Jedes Dokument wird in Fragmente (Chunks) unterteilt. Jedes Fragment durchläuft ein Embedding-Modell – bei uns BGE-M3, das lokal läuft – und wird in einen numerischen Vektor umgewandelt. Die Vektoren gelangen in die Vektordatenbank. In dieser Phase verlässt kein Text Ihre Infrastruktur.

Anfrage (in Echtzeit): Der Nutzer stellt eine Frage. Die Frage wird mit demselben Modell vektorisiert. Die semantische Suche extrahiert 3–8 Dokumentenfragmente mit der größten Ähnlichkeit zur Frage. Optional wenden wir Reranking an, das die Fragmente vor der Übergabe an das Modell nach Relevanz neu sortiert.

Antwortgenerierung: Das Sprachmodell (über einen LLM-Router) erhält die Frage plus die extrahierten Fragmente im Kontext. Die Antwort wird ausschließlich auf deren Grundlage formuliert. Wenn die Fragmente keine Antwort enthalten, sagt das Modell direkt: „Diese Information ist nicht in der Wissensbasis enthalten“ und schlägt vor, einen Menschen zu kontaktieren.

Dieser letzte Punkt ist der Unterschied zwischen einem Assistenten, dem man vertrauen kann, und einem, der höflich erfindet. Guardrails erzwingen das Eingeständnis von Wissenslücken statt der Interpolation von Antworten.

Welches Wissen kann indexiert werden#

Fast jedes strukturierte Format funktioniert gut. Hier ist, was wir in einer typischen Implementierung unterstützen:

Word-Dokumente / PDFs – Verfahren, Richtlinien, Produktspezifikationen, Handelsangebote
FAQs und Help Center – Inhalte exportiert aus Zendesk, Intercom, Notion, Confluence
Produktdatenbank – Beschreibung, Parameter, Preisspannen, Lieferbedingungen (JSON / CSV)
E-Mails und Threads – Kundenservice-Historie als Fallbasis (mit PII-Anonymisierung)
Transkriptionen von Gesprächen – besonders wertvoll im After-Sales-Service

Was wir zu Beginn vermeiden: Dokumente mit vielen bildbasierten Tabellen (gescannte PDFs ohne Textlayer), Wissensbasen mit widersprüchlichen Versionen derselben Informationen ohne Kennzeichnung „gültig ab / zurückgezogen“ und vollständige Repositories – wir indexieren Dokumentation, keinen Code.

Gute Regel: Bevor Sie tausend Dateien indexieren, indexieren Sie hundert der wichtigsten und messen Sie die Treffergenauigkeit der Antworten. Die Qualität der Wissensbasis bestimmt die Obergrenze der Assistentenqualität, nicht umgekehrt.

Sicherheitsschicht: keine Option#

Ein unternehmensinterner Assistent arbeitet mit Daten, die wertvoll sind und deren Leckage Kosten verursacht. Deshalb entwerfen wir Sicherheit von der ersten Codezeile an, nicht als nachträglichen Zusatz.

PII wird vor der Cloud maskiert. Wenn Dokumente personenbezogene Daten enthalten, maskieren wir sie, bevor sie an ein Cloud-Modell gesendet werden. Alternativ läuft der gesamte Stack (Embedding + Modell) lokal auf Ihrer Infrastruktur (Self-Hosting).

Guardrails überwachen den Umfang. Das System antwortet nur auf Fragen, die durch die Wissensbasis abgedeckt sind. Fragen zu Themen außerhalb des Rahmens (z. B. Bitte um Code-Erstellung oder politische Meinung) werden mit einer Nachricht abgelehnt und bieten die Option, zu einem Menschen zu wechseln.

Injection und Prompt-Angriffe. Guardrails filtern die Nutzereingabe, bevor sie zum Modell gelangt – sie blockieren Versuche, Geheimnisse aus dem Kontext zu extrahieren, Instruktionen einzuschleusen und Prompt-Angriffe.

Human-Handoff für Fälle außerhalb der Kompetenz. Ein Assistent, der etwas nicht weiß, rät nicht – er übergibt das Gespräch an einen Menschen mit vollem Thread-Kontext. Ohne dies wird jeder Modellfehler zum Problem des Kunden. Mehr zu diesem Muster im Artikel über Sicherheit von KI-Agenten.

Logs und Nachvollziehbarkeit. Jede Anfrage und jede Antwort werden ohne PII protokolliert – nicht, um Nutzer zu überwachen, sondern um eine Spur für Audits, Qualitätsmessung und DSGVO-Konformität zu haben. Diese Spur ist das Fundament der von der DSGVO geforderten Nachvollziehbarkeit, während formale Protokoll-Register zu einer harten Anforderung des AI Act werden, sobald das System in ein höheres Risiko fällt (Profiling, Scoring, Entscheidungen über Menschen) – die vollständige Klassifizierung beschreiben wir im Artikel über den AI Act und die DSGVO.

Wo ein unternehmensinterner Assistent den größten Hebel bietet#

Drei Arten von Implementierungen, die wir am häufigsten sehen und die sich am schnellsten rentieren:

Kundenservice und Helpdesk. In unseren Implementierungen übernimmt der Assistent in der Regel 40–70% der wiederholten Fragen ohne menschliches Zutun – der tatsächliche Anteil hängt von der Qualität der Wissensbasis und vom Profil der Anfragen ab. Der Berater sieht übergebene Gespräche mit vollem Kontext – er beginnt nicht mit „Worum geht es?“. Messbares Ergebnis: Zeit bis zur ersten Antwort, Anteil der Tickets, die ohne Eskalation abgeschlossen werden.

Interne Wissensbasis für Mitarbeiter. Die Einarbeitung neuer Mitarbeiter verkürzt sich um mehrere bis einige Dutzend Stunden, da Fragen an erfahrene Kollegen durch einen Assistenten ersetzt werden, der auf den Dokumenten der Abteilung basiert. Messbares Ergebnis: Anzahl der Anfragen an das interne Team, Einarbeitungszeit.

Verkaufsassistent vor dem Angebot. Ein Vertriebsmitarbeiter oder Kunde auf der Website kann nach Verfügbarkeit, Parametern und Bedingungen fragen, ohne auf eine E-Mail-Antwort warten zu müssen. Messbares Ergebnis: Zeit von der Anfrage bis zum Angebot, Konversionsrate.

In jedem dieser Fälle ist der Ausgangspunkt derselbe: ein eng definierter, gut beschriebener Wissensbereich, eine gemessene Baseline (wie viel Zeit nimmt es heute in Anspruch?), ein Pilotprojekt mit realem Traffic. Prüfen Sie die Bewertung der Bereitschaft Ihres Unternehmens, bevor Sie den Umfang planen.

Zeit und Kosten: Was zu erwarten ist#

Ein unternehmensinterner Assistent ist ein Ingenieursprojekt, keine einmalige Plattformkonfiguration. Ein realistisches Bild der Implementierung:

Pilotprojekt (ein Wissensbereich): in der Regel einige Wochen von der Dokumentenvorbereitung bis zum funktionierenden System mit messbaren Ergebnissen. Die genauen Zeiträume hängen vom Umfang ab – berechnen Sie es mit dem ROI-Rechner.

Was nimmt Zeit in Anspruch? Nicht das Modell, nicht die Infrastruktur. Die Vorbereitung und Bereinigung der Wissensbasis (widersprüchliche Versionen, Duplikate, fehlende Metadaten) macht in der Regel 30–50% des gesamten Pilotaufwands aus. Deshalb beginnen wir mit einem Dokumenten-Audit, nicht mit der Modellkonfiguration.

Wartungskosten. Die Indexierung neuer Dokumente ist eine kostengünstige Operation. Die variable Kostengröße ist die Anzahl der Anfragen an das Cloud-Modell – Sie können sie im Voraus mit dem Inference-Rechner schätzen. Bei hohem Traffic oder sensiblen Daten ist ein lokales Modell oft die bessere Wahl.

Wann er sich rechnet (und wann nicht). Den Ertrag treibt eine einfache Beziehung: das Volumen wiederkehrender Anfragen × die Kosten einer Beraterstunde, abzüglich der Inferenzkosten. Wenn der Assistent 40–70% der wiederholten Fragen (wie oben) aus einer Wissensbasis im Bereich von Hunderten Anfragen pro Monat übernimmt, rentiert sich das Projekt in der Regel innerhalb weniger Monate – denn jede Stunde, die ein Berater nicht aufwendet, ist eine reale Ersparnis, während die variablen Kosten pro Anfrage gering sind. Es rechnet sich NICHT dort, wo das Volumen niedrig ist (einige Dutzend Anfragen/Monat), die Fragen jedes Mal anders sind oder die Wissensbasis verstreut und widersprüchlich ist – rechnen Sie es dann zuerst mit Ihren eigenen Zahlen im ROI-Rechner durch.

Wo wir KEINE Versprechungen machen: Wir geben keine Festpreise oder festen Termine vor einem Umfangsaudit an. Die Skala der Implementierung (ein Bereich vs. ganzes Unternehmen) verändert die Zahlen um eine Größenordnung. Der Einstiegspunkt ist immer ein Pilotprojekt mit festen Kosten – kontaktieren Sie uns mit einer Beschreibung Ihres Prozesses.

Live ausprobieren#

Beschreiben Sie Ihre Wissensbasis und den Hauptanwendungsfall, und das Modell zeigt, wie der Indexierungsprozess und der Umfang der Guardrails zu gestalten sind – als Ausgangspunkt, nicht als fertiges Projekt (Playground: PII maskiert, keine Retention):

▶Gestalten Sie den RAG-Pipeline für Ihre Wissensbasissandbox · reasoning

FAQ#

Worin unterscheidet sich ein Unternehmens-GPT von ChatGPT?#

ChatGPT antwortet aus dem allgemeinen Wissen, das im Modell kodiert ist – es weiß nichts über Ihre Dokumente oder Verfahren. Ein RAG-Assistent auf Wissensbasis antwortet ausschließlich aus Ihrer Wissensbasis: Jede Antwort hat eine Quelle in einem konkreten Dokumentenausschnitt. Außerhalb des Umfangs der Wissensbasis sagt es direkt „Diese Information habe ich nicht“, statt zu interpolieren.

Gelangen unsere Daten in die Cloud?#

Das hängt von der gewählten Architektur ab. Bei einem lokalen Modell (Self-Hosting) läuft der gesamte Stack auf Ihrer Infrastruktur, und kein Text verlässt das Firmennetzwerk. Bei einem Cloud-Modell maskieren wir PII vor dem Senden der Anfrage. Die Wahl hängt von der Sensibilität der Daten und den DSGVO-Anforderungen ab – wir besprechen dies in der Pilotphase.

Wie groß muss die Wissensbasis sein?#

Es gibt keine Mindestschwelle. Pilotprojekte beginnen wir mit einigen Dutzend gut vorbereiteten Dokumenten. Wichtiger als die Menge ist die Qualität und Konsistenz: Ein gut beschriebener Wissensbereich ohne widersprüchliche Versionen liefert bessere Ergebnisse als tausend ungeordnete Dateien. Die Qualität der Wissensbasis bestimmt die Obergrenze der Assistentenqualität.

Kann sich der Assistent irren?#

Ja. Jedes RAG-System hat eine Fehlerquote, insbesondere bei Grenzfragen und Dokumenten mit mehrdeutigen Inhalten. Deshalb erzwingen Guardrails die Antwort „Ich weiß es nicht“ statt zu raten, wir protokollieren jede Antwort für Qualitätsaudits, und die Implementierung in kritischen Pfaden beinhaltet immer Human-Handoff. Der Assistent soll den Menschen entlasten, nicht dort ersetzen, wo Fehler Kosten verursachen.

Wie lange dauert die Implementierung?#

Ein Pilotprojekt für einen Wissensbereich dauert in der Regel einige Wochen von der Bereitstellung der Dokumente bis zum funktionierenden System mit ersten Messungen. Die größte Variable ist die Vorbereitung der Wissensbasis auf Ihrer Seite. Die volle Skalierung und der Zeitplan erfordern ein Umfangsaudit – kontaktieren Sie uns, um mit einer konkreten Zahl zu beginnen.

RAG-Pipeline: Antwort aus Ihren Quellen, mit Quellenangabe — nicht aus dem Modellgedächtnis.