cashcrown // wiedza

KI-Glossar

KI-Begriffe ohne Jargon: RAG, Embeddings, Agenten, DSGVO und Infrastruktur — mit Definitionen, Verknüpfungen und Suche.

61 Begriffe

Großes Sprachmodell (LLM)Grundlagen

Ein Modell, das die nächsten Text-Tokens vorhersagt — die Basis moderner KI.

Ein LLM lernt die Statistik der Sprache aus riesigen Korpora und erzeugt Text Token für Token. Von sich aus kennt es Ihre Daten nicht — Fachwissen wird über RAG oder Fine-Tuning ergänzt.

Verwandt:Token Inferenz RAG (retrieval-augmented generation)Fine-Tuning

TokenGrundlagen

Die kleinste Texteinheit, die ein Modell verarbeitet.

Modelle berechnen Kosten und Limits in Tokens, nicht in Zeichen. ~1 Token entspricht im Schnitt 4 Zeichen; Abrechnung und Kontextfenster werden in Tokens gemessen.

Verwandt:Großes Sprachmodell (LLM)Kontextfenster Inferenz

KontextfensterGrundlagen

Die maximale Anzahl von Tokens, die ein Modell auf einmal sieht.

Überschreiten Gespräch oder Dokumente das Fenster, muss man kürzen oder nur die relevantesten Fragmente abrufen — einer der Gründe, warum RAG statt des Hineinstopfens der ganzen Basis in den Prompt eingesetzt wird.

Verwandt:Token RAG (retrieval-augmented generation)Prompt

PromptGrundlagen

Die Anweisung und der Kontext, die ein Modell steuern.

Ein guter Prompt setzt Rolle, Regeln, Kontext (z. B. RAG-Quellen) und ein Ausgabeformat. Das Einschleusen einer schädlichen Anweisung in den Prompt ist Prompt Injection — Guardrails wehren sie ab.

Verwandt:Kontextfenster Guardrails Strukturierte Ausgabe

InferenzGrundlagen

Ausführen eines trainierten Modells zur Antwortgenerierung.

Inferenz ist der Betriebskostenfaktor eines KI-Systems — gemessen an Latenz und Durchsatz. Sie kann in der Cloud oder lokal (Self-Hosting) laufen, was über die Datenresidenz entscheidet.

Verwandt:Latenz Self-Hosting Großes Sprachmodell (LLM)

Fine-TuningGrundlagen

Weitertraining eines Modells mit eigenen Beispielen.

Fine-Tuning verändert die Gewichte des Modells und ist kostspielig; für frisches Faktenwissen ist RAG meist besser (günstiger, ohne Neutraining aktualisierbar). Beide Ansätze werden bisweilen kombiniert.

Verwandt:Großes Sprachmodell (LLM)RAG (retrieval-augmented generation)Inferenz

RAG (retrieval-augmented generation)RAG & Suche

Erst Fakten abrufen, dann das Modell darauf gestützt antworten lassen.

RAG begrenzt Halluzinationen: Das Modell erhält konkrete Quellen und zitiert sie. Es ist die Grundlage eines verlässlichen Kundensupports — Antworten sind belegt, und bei schwacher Übereinstimmung eskaliert das System an einen Menschen, statt zu erfinden.

Verwandt:Embedding (Vektor)Vektordatenbank Hybride Suche Halluzination LLM-Router

Embedding (Vektor)RAG & SucheBGE-M3

Text als Zahlenliste, wobei Nähe = ähnliche Bedeutung.

Embeddings ermöglichen die Suche nach Bedeutung statt nach Schlüsselwörtern. Cashcrown berechnet sie lokal mit dem Modell BGE-M3 (1024 Dimensionen), sodass der einzubettende Inhalt die Infrastruktur nie verlässt.

Verwandt:Vektordatenbank Semantische Suche BGE-M3

VektordatenbankRAG & SucheQdrant

Ein Speicher für Embeddings, der nächste Vektoren in Millisekunden findet.

Das Herzstück der semantischen Suche in RAG. Cashcrown betreibt Qdrant lokal als nativen Dienst — Vektoren und Metadaten bleiben auf dem eigenen Server.

Verwandt:Embedding (Vektor)Semantische Suche Hybride Suche

Semantische SucheRAG & Suche

Suche nach Bedeutung statt wörtlicher Übereinstimmung.

Frage und Dokumente werden zu Embeddings und als Vektoren verglichen, sodass „wie schützt man Daten“ einen DSGVO-Text findet, selbst ohne gemeinsame Wörter.

Verwandt:Embedding (Vektor)Vektordatenbank Hybride Suche FAQ-Explorer

Hybride SucheRAG & Suche

Kombination aus semantischer und klassischer Stichwortsuche.

Die Semantik erfasst die Bedeutung, die Volltextsuche trifft genaue Namen und Codes. Beides zu kombinieren (z. B. Vektoren + Postgres-FTS) liefert treffsicherere Ergebnisse als jede für sich.

Verwandt:Semantische Suche Reranking Vektordatenbank

RerankingRAG & Suche

Ein zweiter Durchlauf, der Treffer nach Relevanz neu ordnet.

Nach einem schnellen ersten Abruf bewertet ein präziseres Modell jeden Kandidaten gegenüber der Frage und hebt die besten nach oben — das verbessert die Qualität des Kontexts, der an das LLM geht.

Verwandt:Hybride Suche RAG (retrieval-augmented generation)

LLM-RouterAgentenOpenClaw

Ein einziger Zugang zu Modellen: wählt Modell, maskiert PII, erzwingt Limits.

Der gesamte KI-Verkehr in Cashcrown läuft über den OpenClaw-Router — kein Code ruft einen Anbieter direkt auf. So lassen sich PII-Maskierung, Modell-Fallback und Telemetrie an einer Stelle durchsetzen.

Verwandt:Großes Sprachmodell (LLM)PII (personenbezogene Daten)Strukturierte Ausgabe Observability Modellauswahl (Routing)Thinking-Modus (Reasoning)

Mehr:Modell-Atlas →

KI-AgentAgenten

Ein KI-System, das Schritte plant und Werkzeuge nutzt.

Ein Agent antwortet nicht nur — er handelt: sucht, ruft APIs auf, bucht einen Termin. Sicherheit erfordert Guardrails und Bestätigungen bei unumkehrbaren Aktionen, damit das Verhalten nie außer Kontrolle gerät.

Verwandt:Tool-Nutzung Guardrails Concierge (Assistent)

Tool-NutzungAgenten

Die Fähigkeit eines Modells, Funktionen/APIs aufzurufen.

Das Modell erhält einen Werkzeugkatalog mit Argumentschemata und entscheidet, welches es aufruft. Unumkehrbare Aktionen (z. B. eine Buchung) erfordern ein serverseitig ausgestelltes Bestätigungstoken, nicht die bloße Aussage des Modells.

Verwandt:KI-Agent Strukturierte Ausgabe Guardrails

GuardrailsAgenten

Regeln, die Modell-Ein- und -Ausgaben einschränken.

Am Eingang weisen sie Prompt Injection ab, am Ausgang relativieren sie Versprechen (z. B. Preisspannen, Termine mit Vorbehalt). Guardrails verhindern, dass der Assistent Dinge zusagt, die er nicht sollte.

Verwandt:Prompt Halluzination KI-Agent Tool-Nutzung

HalluzinationAgenten

Eine selbstbewusst klingende, aber erfundene Antwort.

Modelle füllen Lücken mit plausiblem Text, selbst wenn sie den Fakt nicht kennen. RAG mit Quellenangaben und einer Konfidenzschwelle (Eskalation an einen Menschen bei schwacher Übereinstimmung) ist die wichtigste Abwehr.

Verwandt:RAG (retrieval-augmented generation)Guardrails Großes Sprachmodell (LLM)

Strukturierte AusgabeAgenten

Erzwingen von schema-konformem JSON aus dem Modell.

Ohne sie lässt sich die Antwort eines Modells schwer sicher parsen. Cashcrown nutzt prompt-basiertes JSON mit Schemavalidierung und einer Reparatur — stabiler als die langsamen nativen „json_schema“-Modi mancher Anbieter.

Verwandt:Prompt Tool-Nutzung LLM-Router

PII (personenbezogene Daten)Datenschutz

Informationen, die eine Person identifizieren.

Bevor etwas in die Cloud geht, maskiert der Router PII mit Tokens und stellt sie in der Antwort wieder her — das Cloud-Modell sieht nie echte personenbezogene Daten.

Verwandt:DSGVO LLM-Router Datenresidenz

DSGVODatenschutz

EU-Datenschutzrecht: Einwilligung, Minimierung, Löschrecht.

In der Praxis: Einwilligung vor dem Tracking, Speichern nur des Notwendigen und echte Löschung auf Anfrage. Bei Cashcrown sind diese Grundsätze in die Pipeline eingebaut, nicht nachträglich angeflanscht.

Verwandt:PII (personenbezogene Daten)Datenresidenz Self-Hosting

DatenresidenzDatenschutz

Wo Daten physisch liegen und verarbeitet werden.

Lokale Embeddings (BGE-M3) und ein lokales Qdrant bedeuten, dass sensible Inhalte den Server nie verlassen. Nur ein maskierter Prompt erreicht die Cloud — eine bewusste Residenzentscheidung.

Verwandt:Self-Hosting PII (personenbezogene Daten)DSGVO

Self-HostingInfrastruktur

Modelle und Dienste auf eigener Infrastruktur betreiben.

Gibt Kontrolle über Daten und Kosten sowie Unabhängigkeit von einem einzelnen Anbieter. Cashcrown hostet Embeddings, die Vektordatenbank und die Suche lokal und greift nur für die Generierung auf die Cloud zu — mit Maskierung.

Verwandt:Datenresidenz Inferenz Vektordatenbank

BGE-M3InfrastrukturBGE-M3

Ein mehrsprachiges Embedding-Modell, lokal betrieben (1024 Dim.).

Wandelt mehrsprachigen Text in Vektoren um, ohne ihn in die Cloud zu senden — das Fundament des privaten RAG von Cashcrown.

Verwandt:Embedding (Vektor)Vektordatenbank Self-Hosting Modellauswahl (Routing)

Mehr:BGE-M3 im Modell-Atlas →

ObservabilityInfrastruktur

Metriken, Logs und Traces, die zeigen, was ein KI-System tut.

Ohne Messung lassen sich weder Kosten noch Qualität steuern. Cashcrown stellt Metriken (Prometheus), korrelierte Logs und Traces bereit, sodass jeder Modellaufruf zählbar und diagnostizierbar ist.

Verwandt:Latenz LLM-Router Inferenz

LatenzInfrastruktur

Zeit von Frage bis Antwort; niedrige Latenz = flüssige Interaktion.

Das Streamen der Antwort Token für Token senkt die gefühlte Latenz — der Nutzer sieht Text, bevor das Modell fertig ist. Deshalb „tippt“ der Assistent live.

Verwandt:Inferenz Durchsatz Observability

DurchsatzInfrastruktur

Wie viele Anfragen/Tokens pro Zeiteinheit verarbeitet werden.

Zusammen mit der Latenz beschreibt er die Leistung beim Bereitstellen von Modellen. Nebenläufigkeitslimits und Backpressure schützen den Durchsatz vor Überlast.

Verwandt:Latenz Inferenz Observability

Concierge (Assistent)Agenten

Ein RAG-Assistent, der mit Quellen antwortet und eskaliert.

Der Concierge von Cashcrown verbindet RAG, Guardrails, Mehrsprachigkeit und Streaming — er antwortet live mit Quellenangaben und übergibt bei Unsicherheit an einen Menschen, statt zu erfinden.

Verwandt:RAG (retrieval-augmented generation)KI-Agent Guardrails Latenz

FAQ-ExplorerSEO & AEO

FAQ-Suche nach Bedeutung statt nur Stichwörtern.

Ein semantisches FAQ liefert die beste Antwort, selbst wenn die Frage anders formuliert ist als in der Basis — es nutzt dieselben Embeddings wie RAG.

Verwandt:Semantische Suche RAG (retrieval-augmented generation)Concierge (Assistent)

Thinking-Modus (Reasoning)Grundlagen

Ein Modus, in dem das Modell intern überlegt, bevor es antwortet.

Thinking-Modelle überlegen verborgen — gut für schwere Entscheidungen, aber langsamer und teurer. In normalen Chat erzwungen können sie leer antworten, daher nur für Reasoning aktiviert (Parameter think).

Verwandt:Großes Sprachmodell (LLM)Inferenz Modellauswahl (Routing)Latenz

Mehr:Modell-Atlas →Welches KI-Modell? (Baum) →

Modellauswahl (Routing)Infrastruktur

Das richtige Modell pro Aufgabe wählen — das günstigste, das es trägt.

Es gibt kein „bestes” Modell; der OpenClaw-Router wählt es pro Aufgabe nach gemessenem Durchsatz, TTFT und Kontextfenster — nicht nach dem Namen. Der Modell-Atlas zeigt die Flotte mit Messwerten.

Verwandt:LLM-Router Durchsatz TTFT (Zeit bis zum ersten Token)Thinking-Modus (Reasoning)Kontextfenster

Mehr:Modell-Atlas →Modellvergleich →

TTFT (Zeit bis zum ersten Token)Infrastruktur

Zeit vom Senden der Frage bis zum ersten Antwort-Token.

TTFT bestimmt, wie „schnell” ein Modell wirkt — beim Streaming sieht der Nutzer danach Text. Wir messen es live, da Namen täuschen.

Verwandt:Latenz Durchsatz Modellauswahl (Routing)

Mehr:Modell-Atlas →

AI ActDatenschutz

EU-Verordnung, die KI-Systeme nach Risiko klassifiziert und Pflichten auferlegt.

Der AI Act teilt Systeme in Risikostufen. Bei begrenztem Risiko (Chatbots, Assistenten) ist Transparenz die zentrale Pflicht — der Nutzer muss wissen, dass er mit KI spricht. Bei hohem Risiko kommen menschliche Aufsicht, technische Dokumentation, Protokollführung und Konformitätsbewertung hinzu. Seit 2024 in Kraft und stufenweise anwendbar: Verbote unzulässiger Praktiken ab 2025, Transparenz für Chatbots (Art. 50) und die meisten Hochrisiko-Pflichten ab August 2026.

Verwandt:DSGVO DSFA (Datenschutz-Folgenabschätzung)Menschliche Aufsicht (Human-in-the-Loop)Guardrails

DSFA (Datenschutz-Folgenabschätzung)Datenschutz

Risikobewertung, wenn die Verarbeitung ein hohes Risiko für Rechte bergen kann.

Eine DSFA ergibt sich aus der DSGVO und ist typischerweise bei umfangreichem Profiling, sensiblen Daten oder automatisierten Entscheidungen über Menschen erforderlich. Ein Assistent, der nur aus einer Wissensbasis antwortet, braucht meist keine; ein System, das profiliert oder entscheidet, wahrscheinlich schon.

Verwandt:DSGVO AI Act PII (personenbezogene Daten)

Menschliche Aufsicht (Human-in-the-Loop)Agenten

Die Anforderung, dass ein Mensch wesentliche oder unumkehrbare KI-Entscheidungen überwacht.

Menschliche Aufsicht ist eine Säule von Compliance und Sicherheit: Unumkehrbare Aktionen durchlaufen eine Bestätigung (Human-Gate), und das System handelt nur in einem engen, beschriebenen Rahmen autonom. Die DSGVO gewährt zudem das Recht, nicht ausschließlich automatisierten Entscheidungen unterworfen zu werden.

Verwandt:KI-Agent Guardrails AI Act

KlassifikatorGrundlagen

Ein Modell, das ein Dokument oder eine Nachricht einer von mehreren Kategorien zuordnet.

Klassifikation gehört zu den Aufgaben mit dem schnellsten ROI: Rechnungskontierung, Ticket-Kategorisierung, Lead-Bewertung. Das Ergebnis ist per Definition messbar (Anteil korrekter Zuordnungen), und der Prozess existiert meist bereits manuell — was sie zu einem guten ersten Anwendungsfall macht.

Verwandt:Datenextraktion Strukturierte Ausgabe Großes Sprachmodell (LLM)

DatenextraktionGrundlagen

Das Herausziehen konkreter Felder aus Text — Rechnungsnummer, Betrag, USt-ID, Datum.

Extraktion wandelt unstrukturierten Text in systemfertige Felder um. Zusammen mit der Klassifikation löst sie einen großen Teil der ersten KI-Ideen in Unternehmen. Am besten funktioniert sie mit einem erzwungenen Schema (structured output), das ein gültiges Format garantiert.

Verwandt:Klassifikator Strukturierte Ausgabe RAG (retrieval-augmented generation)

Übergabe an einen Menschen (Human-Handoff)Agenten

Nahtlose Übergabe eines Gesprächs vom KI-Assistenten an einen Menschen, wenn nötig.

Eine Übergabe ist ein Zeichen eines reifen Systems, kein Versagen: bei geringer Konfidenz, Kundenfrust oder einem entscheidungsbedürftigen Fall eskaliert der Assistent an einen Menschen, statt zu raten. Sie ist auch Teil der AI-Act-Transparenz — der Nutzer kann jederzeit einen Menschen erreichen.

Verwandt:Menschliche Aufsicht (Human-in-the-Loop)Concierge (Assistent)Halluzination AI Act

PilotprojektInfrastruktur

Einführung eines schmalen Prozesses zu Festkosten, um den Wert vor der Skalierung zu messen.

Ein Pilotprojekt senkt das Risiko auf beiden Seiten: Statt eines großen Vertrags zeigen wir ein funktionierendes System an einem messbaren Prozess. Liefert es die Zahlen (eingesparte Stunden, % ohne Menschen abgeschlossener Fälle), erweitern wir den Umfang; wenn nicht, hat es wenig gekostet.

Verwandt:Klassifikator Observability RAG (retrieval-augmented generation)

Lead-ScoringAgenten

Automatisches Bewerten und Priorisieren von Anfragen nach Passung zum idealen Kundenprofil (ICP).

Scoring ist Klassifikation im Vertrieb: Ein Formular-Lead erhält eine Bewertung (Budget, Passung, Reife), und die wertvollsten erreichen zuerst einen Menschen. Die Kriterien sind offen und protokolliert, kein verstecktes Profiling — was für DSGVO und AI Act zählt.

Verwandt:Klassifikator KI-Agent Strukturierte Ausgabe

OCR (optische Zeichenerkennung)RAG & Suche

Das Lesen von Text aus einem Bild oder Scan — der erste Schritt vor der Feldextraktion.

OCR wandelt einen gescannten Beleg oder Vertrag in Text um, den das Modell anschließend klassifizieren und aus dem es Felder extrahieren kann (USt-ID, Betrag, Datum). Kombiniert mit Extraktion und Structured Output ergibt das eine vollständige „Scan → systemfertige Felder“-Pipeline.

Verwandt:Datenextraktion Klassifikator Strukturierte Ausgabe

RPA (robotergesteuerte Prozessautomatisierung)Agenten

Automatisierung wiederkehrender Schritte in bestehenden Apps; mit KI wird sie „intelligent“.

Klassisches RPA klickt und tippt nach starren Regeln nach. Mit KI kombiniert (Klassifikation, Extraktion, Entscheidungen) bewältigt es Varianz — liest z. B. eine Rechnung in beliebigem Layout, statt eine Vorlage zu verlangen. Diese Rolle übernehmen bei uns Agenten mit einer Werkzeug-Allow-List und einem Human-Gate.

Verwandt:KI-Agent Tool-Nutzung Datenextraktion

Prompt-EngineeringGrundlagen

Gestaltung der Modellanweisungen: Rolle, Regeln, Kontext, Ausgabeformat.

Ein guter Prompt ist kein Zauberspruch, sondern Engineering: eine klare Rolle, Beschränkungen, Kontext (z. B. aus RAG) und ein erzwungenes Format. In der Produktion wird ein Prompt wie Code versioniert und getestet, nicht erraten.

Verwandt:Prompt Großes Sprachmodell (LLM)Strukturierte Ausgabe

Synthetische DatenGrundlagen

Künstlich erzeugte Daten für Training oder Tests, wenn echte fehlen oder sensibel sind.

Synthetische Daten helfen, wenn echte Daten knapp, teuer oder DSGVO-gebunden sind — z. B. für Tests und Edge Cases. Sie müssen die reale Verteilung abbilden, sonst lernt das Modell eine Fiktion.

Verwandt:Fine-Tuning Klassifikator PII (personenbezogene Daten)

AI-GovernanceDatenschutz

Regeln, Rollen und Kontrollen, wie ein Unternehmen KI baut und nutzt — wer verantwortet, was erlaubt ist, wie geprüft wird.

Governance bindet verstreute Deployments in eine Ordnung: ein Register der KI-Systeme, Verantwortliche, Datenregeln, Audit-Trail und Reviews. Sie ist die Grundlage für AI-Act-Konformität und Risikokontrolle bei Skalierung.

Verwandt:AI Act Menschliche Aufsicht (Human-in-the-Loop)Observability Guardrails

TCO (Gesamtbetriebskosten)Infrastruktur

Die vollen Kosten eines KI-Systems: nicht nur Einrichtung, sondern Inferenz, Wartung, Monitoring und Updates.

Der Einrichtungspreis ist nur die Spitze des Eisbergs. TCO umfasst Inferenzkosten (Cloud vs. lokal), Wartung, Observability und Updates. Bei Skalierung entscheiden diese, ob Self-Hosting eine API schlägt.

Verwandt:Inferenz Self-Hosting Pilotprojekt

Erklärbarkeit (XAI)Datenschutz

Die Fähigkeit zu zeigen, warum ein KI-System eine Antwort oder Entscheidung lieferte — das Gegenteil einer Blackbox.

Erklärbarkeit bauen wir praktisch auf: Quellenangaben (RAG), ein Log jedes Schritts und Guardrails — damit sich zeigen lässt, woher eine Antwort stammt. Das ist eine Voraussetzung für Vertrauen und Rechenschaft (DSGVO/AI Act).

Verwandt:Halluzination Guardrails Menschliche Aufsicht (Human-in-the-Loop)AI Act

Chunking (Aufteilen)RAG & Suche

Dokumente in Stücke schneiden, die in RAG eingebettet und durchsucht werden.

Indexiert werden kürzere Stücke statt ganzer Dateien — das Kontextfenster ist begrenzt und ein präziser Chunk trifft besser als eine ganze Seite. Eine schlechte Grenze (zerschnittener Satz, zerrissene Tabelle) schadet der Relevanz, daher schneiden wir entlang Überschriften und Absätzen mit leichtem Overlap, nicht blind nach Zeichenzahl.

Verwandt:RAG (retrieval-augmented generation)Embedding (Vektor)Kontextfenster Reranking

MCP (Model Context Protocol)Agenten

Ein offener Standard, der Modelle und Agenten über eine gemeinsame Schnittstelle mit Werkzeugen und Datenquellen verbindet.

MCP ist ein gemeinsamer „Plugin-Bus“: Statt pro System eine eigene Integration zu schreiben, stellt ein MCP-Server Werkzeuge und Daten bereit, auf die der Agent standardisiert zugreift. Bequem, aber es vergrößert die Angriffsfläche — jeder MCP-Server braucht eine Allow-List und Rechtekontrolle, denn ein freigegebenes Werkzeug wird zu einer echten Aktion.

Verwandt:KI-Agent Tool-Nutzung Guardrails LLM-Router

Graph RAGRAG & Suche

RAG, das zusätzlich zu Textstücken über einen Graphen aus Entitäten und Beziehungen sucht.

Normales RAG liefert ähnliche Stücke, verfehlt aber „Wie hängt das zusammen?“-Fragen. Graph RAG baut einen Graphen aus Entitäten (Personen, Firmen, Dokumente) und ihren Beziehungen und bewältigt so mehrstufige Fragen und über viele Dateien verteilten Kontext. Aufbau und Pflege kosten mehr, daher nutzen wir es dort, wo Verbindungen wirklich zählen, nicht standardmäßig.

Verwandt:RAG (retrieval-augmented generation)Semantische Suche Vektordatenbank Agentic RAG

Agentic RAGRAG & Suche

RAG, bei dem ein Agent Suchen plant, Ergebnisse bewertet und nachfragt, statt eines einzigen Versuchs.

Klassisches RAG ist ein Abruf und eine Antwort. Bei Agentic RAG zerlegt der Agent eine schwere Frage in Schritte, sucht mehrfach, bewertet, ob der gefundene Kontext reicht, und fragt nötigenfalls nach oder formuliert um. Es liefert bessere Antworten auf komplexe Fragen zum Preis von mehr Modellaufrufen, daher steuern es weiterhin Guardrails und Limits.

Verwandt:RAG (retrieval-augmented generation)KI-Agent Graph RAG Guardrails

Semantischer CacheInfrastruktur

Ein Cache, der eine fertige Antwort auf eine bedeutungsähnliche Frage zurückgibt.

Ein normaler Cache trifft nur bei identischem Text; ein semantischer Cache vergleicht Embeddings, sodass „Was kostet die Einführung?“ und „Wie hoch ist der Pilotpreis?“ dasselbe gespeicherte Ergebnis treffen können. Das senkt Latenz und Inferenzkosten, braucht aber einen Ähnlichkeitsschwellenwert und ein kurzes TTL, damit keine veraltete oder zu weit hergeholte Antwort ausgeliefert wird.

Verwandt:Embedding (Vektor)Semantische Suche Latenz Inferenz

QuantisierungInfrastruktur

Modellgewichte mit geringerer Präzision speichern, damit sie auf schwächere Hardware passen.

Quantisierung rundet Gewichte (z. B. von 16 auf 4 Bit), wodurch das Modell weniger Speicher braucht und schneller läuft — bei geringem Qualitätsverlust. Sie ist der Grundtrick, mit dem brauchbare Modelle lokal laufen (Self-Hosting) statt nur in der Cloud.

Verwandt:Self-Hosting Inferenz Latenz Durchsatz

LoRA & QLoRAInfrastruktur

Eine günstige Art, ein Modell anzupassen — sie trainiert kleine Zusätze statt aller Gewichte.

LoRA fügt dem Modell kleine trainierbare Schichten (Adapter) hinzu, sodass Fine-Tuning günstiger und schneller ist als das Training des Ganzen. QLoRA kombiniert das mit Quantisierung, um das Training auf eine GPU zu bringen. Für frische Fakten ist meist trotzdem RAG besser.

Verwandt:Fine-Tuning Quantisierung RAG (retrieval-augmented generation)Self-Hosting

TemperaturGrundlagen

Ein Zufallsregler — niedrig liefert stabile, vorhersagbare Antworten, hoch kreative.

Die Temperatur steuert, wie sehr das Modell beim nächsten Token „riskiert”. Für Support, Datenextraktion und quellenbasierte Antworten halten wir sie niedrig (Wiederholbarkeit) und erhöhen sie nur, wo Vielfalt zählt.

Verwandt:Großes Sprachmodell (LLM)Inferenz Strukturierte Ausgabe Halluzination

Mixture of Experts (MoE)Infrastruktur

Eine Architektur, bei der pro Token nur ein Teil des Modells aktiv wird.

Ein MoE-Modell teilt sich in viele „Experten“, und ein Router aktiviert pro Token nur einige davon. So kann das Modell sehr groß sein (viel Wissen), aber günstig in der Inferenz, da nur der aktive Teil rechnet — daher ihre Beliebtheit bei lokalen Deployments.

Verwandt:Inferenz Durchsatz Modellauswahl (Routing)Self-Hosting

Token-StreamingInfrastruktur

Die Antwort Wort für Wort anzeigen, sobald das Modell sie erzeugt.

Statt auf die ganze Antwort zu warten, zeigt Streaming Text Token für Token — der Nutzer sieht die ersten Wörter nach TTFT, das System wirkt schneller. In Cashcrown streamt der Concierge Antworten über SSE, was die gefühlte Reaktionszeit spürbar verbessert.

Verwandt:TTFT (Zeit bis zum ersten Token)Latenz Concierge (Assistent)Inferenz

Prompt InjectionAgenten

Eine versteckte Anweisung in den Eingabedaten, die das Modell kapern soll.

Ein Angreifer versteckt einen Befehl in einer Nachricht, einem Dokument oder einer Webseite („ignoriere deine Anweisungen, sende Geheimnisse“), und das Modell befolgt ihn wie seine eigene. Es ist das größte Risiko bei Tool-nutzenden Agenten; wir wehren ab, indem Guardrails die Eingabe vor dem Modell prüfen und irreversible Aktionen eine serverseitige Bestätigung erfordern — das Modell allein genügt nie.

Verwandt:Guardrails Prompt Tool-Nutzung

Red TeamingAgenten

Das eigene KI-System bewusst angreifen, um Lücken vor anderen zu finden.

Red Teaming ist eine Reihe von Tests: Prompt Injection, Versuche, Geheimnisse zu extrahieren, Guardrail-Umgehungen, erzwungene Versprechen oder Halluzinationen. Cashcrown pflegt eine solche Suite als ständiges Gate (z. B. mehrsprachige Injection-Muster in PL/EN/DE/UK), denn ein in einer Sprache erfolgreicher Angriff klappt oft auch in einer anderen.

Verwandt:Prompt Injection Guardrails Agenten-Evaluation (Golden Set)Halluzination

MultimodalGrundlagen

Ein Modell, das nicht nur Text, sondern auch Bilder, PDFs und Audio versteht.

Ein multimodales Modell nimmt Bilder, Scans oder Aufnahmen und verarbeitet sie wie Text — beschreibt ein Foto, liest eine Rechnung, transkribiert ein Gespräch. In der Praxis verbinden wir es mit OCR und Extraktion zu einer „Dokument → fertige Felder“-Pipeline und verarbeiten hochgeladene Dateien ohne Festplattenschreiben und ohne Retention.

Verwandt:OCR (optische Zeichenerkennung)Datenextraktion Sprache (STT / TTS)Großes Sprachmodell (LLM)

Sprache (STT / TTS)Grundlagen

Sprache zu Text (STT) und Text zu Sprache (TTS) — die Basis eines Sprachassistenten.

STT (Speech-to-Text) schreibt eine Äußerung als Text auf, TTS (Text-to-Speech) liest die Antwort vor. Cashcrown transkribiert lokal mit dem Whisper-Modell, sodass die Aufnahme den Server nie verlässt; der Sprachassistent selbst ist eine Komposition aus STT, RAG und Guardrails, kein separates „magisches“ Modell.

Verwandt:Multimodal Concierge (Assistent)Self-Hosting Latenz

Agenten-Evaluation (Golden Set)Agenten

Die Qualität eines Agenten an einem festen Satz Referenzfälle messen, nicht nach Gefühl.

Ein Golden Set ist eine Sammlung von Fragen mit erwarteter Antwort (und korrekter Tool-Wahl), an der wir die Genauigkeit nach jeder Prompt- oder Modelländerung messen — damit das Beheben einer Sache nicht zehn andere kaputtmacht. Ohne ist „besser“ nur ein Gefühl; damit wird es zu einer belegbaren Zahl.

Verwandt:Red Teaming KI-Agent Observability Strukturierte Ausgabe

KI-Glossar

KI-Begriffe ohne Jargon: RAG, Embeddings, Agenten, DSGVO und Infrastruktur — mit Definitionen, Verknüpfungen und Suche.

61 Begriffe

Großes Sprachmodell (LLM)Grundlagen

Ein Modell, das die nächsten Text-Tokens vorhersagt — die Basis moderner KI.

Ein LLM lernt die Statistik der Sprache aus riesigen Korpora und erzeugt Text Token für Token. Von sich aus kennt es Ihre Daten nicht — Fachwissen wird über RAG oder Fine-Tuning ergänzt.

Verwandt:Token Inferenz RAG (retrieval-augmented generation)Fine-Tuning

TokenGrundlagen

Die kleinste Texteinheit, die ein Modell verarbeitet.

Modelle berechnen Kosten und Limits in Tokens, nicht in Zeichen. ~1 Token entspricht im Schnitt 4 Zeichen; Abrechnung und Kontextfenster werden in Tokens gemessen.

Verwandt:Großes Sprachmodell (LLM)Kontextfenster Inferenz

KontextfensterGrundlagen

Die maximale Anzahl von Tokens, die ein Modell auf einmal sieht.

Verwandt:Token RAG (retrieval-augmented generation)Prompt

PromptGrundlagen

Die Anweisung und der Kontext, die ein Modell steuern.

Ein guter Prompt setzt Rolle, Regeln, Kontext (z. B. RAG-Quellen) und ein Ausgabeformat. Das Einschleusen einer schädlichen Anweisung in den Prompt ist Prompt Injection — Guardrails wehren sie ab.

Verwandt:Kontextfenster Guardrails Strukturierte Ausgabe

InferenzGrundlagen

Ausführen eines trainierten Modells zur Antwortgenerierung.

Inferenz ist der Betriebskostenfaktor eines KI-Systems — gemessen an Latenz und Durchsatz. Sie kann in der Cloud oder lokal (Self-Hosting) laufen, was über die Datenresidenz entscheidet.

Verwandt:Latenz Self-Hosting Großes Sprachmodell (LLM)

Fine-TuningGrundlagen

Weitertraining eines Modells mit eigenen Beispielen.

Verwandt:Großes Sprachmodell (LLM)RAG (retrieval-augmented generation)Inferenz

RAG (retrieval-augmented generation)RAG & Suche

Erst Fakten abrufen, dann das Modell darauf gestützt antworten lassen.

Verwandt:Embedding (Vektor)Vektordatenbank Hybride Suche Halluzination LLM-Router

Embedding (Vektor)RAG & SucheBGE-M3

Text als Zahlenliste, wobei Nähe = ähnliche Bedeutung.

Verwandt:Vektordatenbank Semantische Suche BGE-M3

VektordatenbankRAG & SucheQdrant

Ein Speicher für Embeddings, der nächste Vektoren in Millisekunden findet.

Das Herzstück der semantischen Suche in RAG. Cashcrown betreibt Qdrant lokal als nativen Dienst — Vektoren und Metadaten bleiben auf dem eigenen Server.

Verwandt:Embedding (Vektor)Semantische Suche Hybride Suche

Semantische SucheRAG & Suche

Suche nach Bedeutung statt wörtlicher Übereinstimmung.

Frage und Dokumente werden zu Embeddings und als Vektoren verglichen, sodass „wie schützt man Daten“ einen DSGVO-Text findet, selbst ohne gemeinsame Wörter.

Verwandt:Embedding (Vektor)Vektordatenbank Hybride Suche FAQ-Explorer

Hybride SucheRAG & Suche

Kombination aus semantischer und klassischer Stichwortsuche.

Die Semantik erfasst die Bedeutung, die Volltextsuche trifft genaue Namen und Codes. Beides zu kombinieren (z. B. Vektoren + Postgres-FTS) liefert treffsicherere Ergebnisse als jede für sich.

Verwandt:Semantische Suche Reranking Vektordatenbank

RerankingRAG & Suche

Ein zweiter Durchlauf, der Treffer nach Relevanz neu ordnet.

Verwandt:Hybride Suche RAG (retrieval-augmented generation)

LLM-RouterAgentenOpenClaw

Ein einziger Zugang zu Modellen: wählt Modell, maskiert PII, erzwingt Limits.

Verwandt:Großes Sprachmodell (LLM)PII (personenbezogene Daten)Strukturierte Ausgabe Observability Modellauswahl (Routing)Thinking-Modus (Reasoning)

Mehr:Modell-Atlas →

KI-AgentAgenten

Ein KI-System, das Schritte plant und Werkzeuge nutzt.

Verwandt:Tool-Nutzung Guardrails Concierge (Assistent)

Tool-NutzungAgenten

Die Fähigkeit eines Modells, Funktionen/APIs aufzurufen.

Verwandt:KI-Agent Strukturierte Ausgabe Guardrails

GuardrailsAgenten

Regeln, die Modell-Ein- und -Ausgaben einschränken.

Verwandt:Prompt Halluzination KI-Agent Tool-Nutzung

HalluzinationAgenten

Eine selbstbewusst klingende, aber erfundene Antwort.

Verwandt:RAG (retrieval-augmented generation)Guardrails Großes Sprachmodell (LLM)

Strukturierte AusgabeAgenten

Erzwingen von schema-konformem JSON aus dem Modell.

Verwandt:Prompt Tool-Nutzung LLM-Router

PII (personenbezogene Daten)Datenschutz

Informationen, die eine Person identifizieren.

Bevor etwas in die Cloud geht, maskiert der Router PII mit Tokens und stellt sie in der Antwort wieder her — das Cloud-Modell sieht nie echte personenbezogene Daten.

Verwandt:DSGVO LLM-Router Datenresidenz

DSGVODatenschutz

EU-Datenschutzrecht: Einwilligung, Minimierung, Löschrecht.

Verwandt:PII (personenbezogene Daten)Datenresidenz Self-Hosting

DatenresidenzDatenschutz

Wo Daten physisch liegen und verarbeitet werden.

Lokale Embeddings (BGE-M3) und ein lokales Qdrant bedeuten, dass sensible Inhalte den Server nie verlassen. Nur ein maskierter Prompt erreicht die Cloud — eine bewusste Residenzentscheidung.

Verwandt:Self-Hosting PII (personenbezogene Daten)DSGVO

Self-HostingInfrastruktur

Modelle und Dienste auf eigener Infrastruktur betreiben.

Verwandt:Datenresidenz Inferenz Vektordatenbank

BGE-M3InfrastrukturBGE-M3

Ein mehrsprachiges Embedding-Modell, lokal betrieben (1024 Dim.).

Wandelt mehrsprachigen Text in Vektoren um, ohne ihn in die Cloud zu senden — das Fundament des privaten RAG von Cashcrown.

Verwandt:Embedding (Vektor)Vektordatenbank Self-Hosting Modellauswahl (Routing)

Mehr:BGE-M3 im Modell-Atlas →

ObservabilityInfrastruktur

Metriken, Logs und Traces, die zeigen, was ein KI-System tut.

Ohne Messung lassen sich weder Kosten noch Qualität steuern. Cashcrown stellt Metriken (Prometheus), korrelierte Logs und Traces bereit, sodass jeder Modellaufruf zählbar und diagnostizierbar ist.

Verwandt:Latenz LLM-Router Inferenz

LatenzInfrastruktur

Zeit von Frage bis Antwort; niedrige Latenz = flüssige Interaktion.

Das Streamen der Antwort Token für Token senkt die gefühlte Latenz — der Nutzer sieht Text, bevor das Modell fertig ist. Deshalb „tippt“ der Assistent live.

Verwandt:Inferenz Durchsatz Observability

DurchsatzInfrastruktur

Wie viele Anfragen/Tokens pro Zeiteinheit verarbeitet werden.

Zusammen mit der Latenz beschreibt er die Leistung beim Bereitstellen von Modellen. Nebenläufigkeitslimits und Backpressure schützen den Durchsatz vor Überlast.

Verwandt:Latenz Inferenz Observability

Concierge (Assistent)Agenten

Ein RAG-Assistent, der mit Quellen antwortet und eskaliert.

Der Concierge von Cashcrown verbindet RAG, Guardrails, Mehrsprachigkeit und Streaming — er antwortet live mit Quellenangaben und übergibt bei Unsicherheit an einen Menschen, statt zu erfinden.

Verwandt:RAG (retrieval-augmented generation)KI-Agent Guardrails Latenz

FAQ-ExplorerSEO & AEO

FAQ-Suche nach Bedeutung statt nur Stichwörtern.

Ein semantisches FAQ liefert die beste Antwort, selbst wenn die Frage anders formuliert ist als in der Basis — es nutzt dieselben Embeddings wie RAG.

Verwandt:Semantische Suche RAG (retrieval-augmented generation)Concierge (Assistent)

Thinking-Modus (Reasoning)Grundlagen

Ein Modus, in dem das Modell intern überlegt, bevor es antwortet.

Verwandt:Großes Sprachmodell (LLM)Inferenz Modellauswahl (Routing)Latenz

Mehr:Modell-Atlas →Welches KI-Modell? (Baum) →

Modellauswahl (Routing)Infrastruktur

Das richtige Modell pro Aufgabe wählen — das günstigste, das es trägt.

Verwandt:LLM-Router Durchsatz TTFT (Zeit bis zum ersten Token)Thinking-Modus (Reasoning)Kontextfenster

Mehr:Modell-Atlas →Modellvergleich →

TTFT (Zeit bis zum ersten Token)Infrastruktur

Zeit vom Senden der Frage bis zum ersten Antwort-Token.

TTFT bestimmt, wie „schnell” ein Modell wirkt — beim Streaming sieht der Nutzer danach Text. Wir messen es live, da Namen täuschen.

Verwandt:Latenz Durchsatz Modellauswahl (Routing)

Mehr:Modell-Atlas →

AI ActDatenschutz

EU-Verordnung, die KI-Systeme nach Risiko klassifiziert und Pflichten auferlegt.

Verwandt:DSGVO DSFA (Datenschutz-Folgenabschätzung)Menschliche Aufsicht (Human-in-the-Loop)Guardrails

DSFA (Datenschutz-Folgenabschätzung)Datenschutz

Risikobewertung, wenn die Verarbeitung ein hohes Risiko für Rechte bergen kann.

Verwandt:DSGVO AI Act PII (personenbezogene Daten)

Menschliche Aufsicht (Human-in-the-Loop)Agenten

Die Anforderung, dass ein Mensch wesentliche oder unumkehrbare KI-Entscheidungen überwacht.

Verwandt:KI-Agent Guardrails AI Act

KlassifikatorGrundlagen

Ein Modell, das ein Dokument oder eine Nachricht einer von mehreren Kategorien zuordnet.

Verwandt:Datenextraktion Strukturierte Ausgabe Großes Sprachmodell (LLM)

DatenextraktionGrundlagen

Das Herausziehen konkreter Felder aus Text — Rechnungsnummer, Betrag, USt-ID, Datum.

Verwandt:Klassifikator Strukturierte Ausgabe RAG (retrieval-augmented generation)

Übergabe an einen Menschen (Human-Handoff)Agenten

Nahtlose Übergabe eines Gesprächs vom KI-Assistenten an einen Menschen, wenn nötig.

Verwandt:Menschliche Aufsicht (Human-in-the-Loop)Concierge (Assistent)Halluzination AI Act

PilotprojektInfrastruktur

Einführung eines schmalen Prozesses zu Festkosten, um den Wert vor der Skalierung zu messen.

Verwandt:Klassifikator Observability RAG (retrieval-augmented generation)

Lead-ScoringAgenten

Automatisches Bewerten und Priorisieren von Anfragen nach Passung zum idealen Kundenprofil (ICP).

Verwandt:Klassifikator KI-Agent Strukturierte Ausgabe

OCR (optische Zeichenerkennung)RAG & Suche

Das Lesen von Text aus einem Bild oder Scan — der erste Schritt vor der Feldextraktion.

Verwandt:Datenextraktion Klassifikator Strukturierte Ausgabe

RPA (robotergesteuerte Prozessautomatisierung)Agenten

Automatisierung wiederkehrender Schritte in bestehenden Apps; mit KI wird sie „intelligent“.

Verwandt:KI-Agent Tool-Nutzung Datenextraktion

Prompt-EngineeringGrundlagen

Gestaltung der Modellanweisungen: Rolle, Regeln, Kontext, Ausgabeformat.

Verwandt:Prompt Großes Sprachmodell (LLM)Strukturierte Ausgabe

Synthetische DatenGrundlagen

Künstlich erzeugte Daten für Training oder Tests, wenn echte fehlen oder sensibel sind.

Synthetische Daten helfen, wenn echte Daten knapp, teuer oder DSGVO-gebunden sind — z. B. für Tests und Edge Cases. Sie müssen die reale Verteilung abbilden, sonst lernt das Modell eine Fiktion.

Verwandt:Fine-Tuning Klassifikator PII (personenbezogene Daten)

AI-GovernanceDatenschutz

Regeln, Rollen und Kontrollen, wie ein Unternehmen KI baut und nutzt — wer verantwortet, was erlaubt ist, wie geprüft wird.

Verwandt:AI Act Menschliche Aufsicht (Human-in-the-Loop)Observability Guardrails

TCO (Gesamtbetriebskosten)Infrastruktur

Die vollen Kosten eines KI-Systems: nicht nur Einrichtung, sondern Inferenz, Wartung, Monitoring und Updates.

Verwandt:Inferenz Self-Hosting Pilotprojekt

Erklärbarkeit (XAI)Datenschutz

Die Fähigkeit zu zeigen, warum ein KI-System eine Antwort oder Entscheidung lieferte — das Gegenteil einer Blackbox.

Verwandt:Halluzination Guardrails Menschliche Aufsicht (Human-in-the-Loop)AI Act

Chunking (Aufteilen)RAG & Suche

Dokumente in Stücke schneiden, die in RAG eingebettet und durchsucht werden.

Verwandt:RAG (retrieval-augmented generation)Embedding (Vektor)Kontextfenster Reranking

MCP (Model Context Protocol)Agenten

Ein offener Standard, der Modelle und Agenten über eine gemeinsame Schnittstelle mit Werkzeugen und Datenquellen verbindet.

Verwandt:KI-Agent Tool-Nutzung Guardrails LLM-Router

Graph RAGRAG & Suche

RAG, das zusätzlich zu Textstücken über einen Graphen aus Entitäten und Beziehungen sucht.

Verwandt:RAG (retrieval-augmented generation)Semantische Suche Vektordatenbank Agentic RAG

Agentic RAGRAG & Suche

RAG, bei dem ein Agent Suchen plant, Ergebnisse bewertet und nachfragt, statt eines einzigen Versuchs.

Verwandt:RAG (retrieval-augmented generation)KI-Agent Graph RAG Guardrails

Semantischer CacheInfrastruktur

Ein Cache, der eine fertige Antwort auf eine bedeutungsähnliche Frage zurückgibt.

Verwandt:Embedding (Vektor)Semantische Suche Latenz Inferenz

QuantisierungInfrastruktur

Modellgewichte mit geringerer Präzision speichern, damit sie auf schwächere Hardware passen.

Verwandt:Self-Hosting Inferenz Latenz Durchsatz

LoRA & QLoRAInfrastruktur

Eine günstige Art, ein Modell anzupassen — sie trainiert kleine Zusätze statt aller Gewichte.

Verwandt:Fine-Tuning Quantisierung RAG (retrieval-augmented generation)Self-Hosting

TemperaturGrundlagen

Ein Zufallsregler — niedrig liefert stabile, vorhersagbare Antworten, hoch kreative.

Verwandt:Großes Sprachmodell (LLM)Inferenz Strukturierte Ausgabe Halluzination

Mixture of Experts (MoE)Infrastruktur

Eine Architektur, bei der pro Token nur ein Teil des Modells aktiv wird.

Verwandt:Inferenz Durchsatz Modellauswahl (Routing)Self-Hosting

Token-StreamingInfrastruktur

Die Antwort Wort für Wort anzeigen, sobald das Modell sie erzeugt.

Verwandt:TTFT (Zeit bis zum ersten Token)Latenz Concierge (Assistent)Inferenz

Prompt InjectionAgenten

Eine versteckte Anweisung in den Eingabedaten, die das Modell kapern soll.

Verwandt:Guardrails Prompt Tool-Nutzung

Red TeamingAgenten

Das eigene KI-System bewusst angreifen, um Lücken vor anderen zu finden.

Verwandt:Prompt Injection Guardrails Agenten-Evaluation (Golden Set)Halluzination

MultimodalGrundlagen

Ein Modell, das nicht nur Text, sondern auch Bilder, PDFs und Audio versteht.

Verwandt:OCR (optische Zeichenerkennung)Datenextraktion Sprache (STT / TTS)Großes Sprachmodell (LLM)

Sprache (STT / TTS)Grundlagen

Sprache zu Text (STT) und Text zu Sprache (TTS) — die Basis eines Sprachassistenten.

Verwandt:Multimodal Concierge (Assistent)Self-Hosting Latenz

Agenten-Evaluation (Golden Set)Agenten

Die Qualität eines Agenten an einem festen Satz Referenzfälle messen, nicht nach Gefühl.

Verwandt:Red Teaming KI-Agent Observability Strukturierte Ausgabe