Ein Kunde besucht die Website eines B2B-Shops, durchstöbert Elektroausrüstung und verlässt die Seite ohne Kauf. Am nächsten Tag erhält er eine E-Mail mit genau dem Produkt, das er sich angesehen hat, ergänzt um zwei Zubehörteile, die andere Käufer zu derselben Bestellung hinzugefügt haben. Die Conversion-Rate beträgt 18 %. Ohne diese E-Mail wären es 3 % gewesen. Dieser Unterschied kommt nicht aus der Intuition des Verkäufers, sondern aus einem Empfehlungsmodell, das auf Sitzungsdaten und Bestellhistorie basiert.
KI-Personalisierung ist nicht nur eine Domäne großer E-Commerce-Plattformen. Unternehmen mit einigen hundert B2B-Kunden, Dienstleistungsportale und Fachgeschäfte implementieren heute Systeme, die vor drei Jahren ein dediziertes Data-Science-Team erfordert hätten. Im Folgenden beschreibe ich, wie das aus architektonischer Sicht funktioniert, wo die Fallstricke liegen und was es wirklich kostet.
Zwei verschiedene Probleme: Empfehlungen und Personalisierung
#Die Begriffe werden oft synonym verwendet, beschreiben aber unterschiedliche Mechanismen.
Ein Empfehlungsmotor beantwortet die Frage: „Was könnte diesen Kunden noch interessieren?“. Die Eingabedaten sind Interaktionshistorie (Klicks, Käufe, Zeit auf der Seite) und Produkteigenschaften. Die Ausgabe ist ein Ranking von Produkten oder Inhalten, absteigend sortiert nach der vorhergesagten Relevanz für eine bestimmte Person oder ein Segment.
Angebotspersonalisierung beantwortet die Frage: „Wie passe ich die Botschaft, die Preisspanne oder die Reihenfolge der Schritte an das Kundenprofil an?“. Die Eingabedaten sind das Kundensegment (Branche, Unternehmensgröße, Phase im Kauftrichter), Kontaktgeschichte und Sitzungskontext. Die Ausgabe ist ein angepasstes Seitenlayout, Priorisierung von Abschnitten, E-Mail-Inhalt oder ein auf die Rolle der Person zugeschnittener Wertvorschlag.
Beide Systeme können zusammenarbeiten: Ein RAG-Agent mit Zugriff auf den Produktkatalog personalisiert den Gesprächsinhalt und zieht gleichzeitig den Empfehlungsmotor heran, um konkrete Produkte vorzuschlagen. Eine solche Kombination beschreibe ich im Abschnitt zur Architektur.
Drei Architekturen: von der einfachsten bis zum vollwertigen Agenten
#Es gibt ein Spektrum an Lösungen, die sich in Kosten, Möglichkeiten und Wartungskomplexität unterscheiden.
| Architektur | Funktionsweise | Wann ausreichend | Einschränkungen |
|---|---|---|---|
| Statische Regeln | Manuell definierte Segmente, If-Then-Anpassung | Wenige Produkte, stabiler Katalog, bis zu 500 Kunden | Skaliert nicht, erfordert manuelle Wartung |
| Collaborative Filtering | Ähnlichkeitsmatrix Nutzer-Produkt (ALS, SVD) | E-Commerce mit Kaufhistorie, tausende SKU | Cold Start (neue Kunden, neue Produkte), kein Sitzungskontext |
| Embeddings + semantische Suche | Produkte und Anfragen als Vektoren im Raum BGE-M3, Hybrid Search | Kataloge mit Beschreibungen, Textsuche, B2B | Erfordert Vektorindex, keine Verhaltenssignale |
| KI-Agent mit Gedächtnis | LLM mit Tool-Use, RAG auf Katalog, Kundenhistorie im Kontext | Komplexe Konfigurationen, B2B mit Beratung, maßgeschneiderte Angebote | Höhere Token-Kosten, Latenz, erfordert Guardrails |
Für die meisten polnischen B2B-Unternehmen, die 2026 starten, ist der optimale Einstiegspunkt eine Kombination aus Embeddings mit semantischer Suche, ergänzt durch einfaches Collaborative Filtering auf der Kaufhistorie. Ein KI-Agent mit komplexem Gedächtnis kommt ins Spiel, wenn der Prozess die Erklärung von Empfehlungen gegenüber dem Kunden oder die Live-Konfiguration eines Produkts erfordert.
Daten: Was sammeln und wie die DSGVO nicht verletzen
#Jeder Empfehlungsmotor ist nur so gut wie die Daten, auf denen er basiert. Gleichzeitig sind Verhaltensdaten ein Bereich, in dem die DSGVO und der AI Act konkrete Anforderungen stellen.
Explizite Daten (explizites Feedback) sind Bewertungen, „Gefällt mir“-Klicks, Wunschlisten. Der Kunde drückt bewusst eine Präferenz aus. Die rechtliche Grundlage ist ein Vertrag oder berechtigtes Interesse, abhängig vom Kontext.
Implizite Daten (implizites Feedback) sind Zeit auf der Seite, Scrolltiefe, verlassene Warenkörbe. Hier benötigen Sie eine Marketing-Einwilligung oder ein klar dokumentiertes berechtigtes Interesse im Verzeichnis der Verarbeitungstätigkeiten. Das Sammeln impliziter Daten ohne Rechtsgrundlage ist nicht nur ein DSGVO-Risiko, sondern auch Material für eine AI-Act-Prüfung, wenn das System Entscheidungen trifft, die den Preis oder den Zugang zum Angebot beeinflussen.
Transaktionsdaten (Bestellhistorie) haben die stärkste Rechtsgrundlage (Vertragserfüllung) und sind am wertvollsten für Collaborative Filtering. Denken Sie an Anonymisierung oder Pseudonymisierung, bevor die Daten in die Modellschicht gelangen, insbesondere wenn das Modell in der Cloud läuft.
PII-Maskierung vor dem Senden an das LLM ist Pflicht. Name, E-Mail-Adresse, Steuernummer des Kunden sollten nicht in den Prompt gelangen, der Empfehlungen generiert. Das Modell benötigt nur die Sitzungs-ID, Segmentmerkmale und Interaktionshistorie. Details zur Maskierung beschreibt der Artikel Anonymisierung von PII vor KI.
Cold Start: Was tun, wenn keine Historie vorhanden ist
#Cold Start ist die Situation, in der ein neuer Kunde, ein neues Produkt oder ein neues Unternehmen das System ohne jegliche Historie nutzt. Collaborative Filtering fällt hier aus. Drei Ansätze funktionieren in der Praxis:
Fallback auf segmentbezogene Popularität. Ein neuer Kunde aus der Baubranche erhält Empfehlungen basierend darauf, was andere Kunden aus der Baubranche ähnlicher Unternehmensgröße gekauft haben. Es ist nicht individuell personalisiert, aber treffsicherer als eine allgemeine Bestsellerliste.
Onboarding mit Fragen. Einige Fragen zu Beginn (Branche, Unternehmensgröße, was Sie lösen möchten) erstellen ein Startprofil ohne Historie. Das System behandelt die Antworten wie explizite Präferenzdaten und verengt sofort den Empfehlungsraum.
Content-basiertes Filtering auf Embeddings. Wenn der Kunde nach einem bestimmten Produkt fragt oder einen Suchbegriff eingibt, sucht das System nach Produkten mit ähnlicher semantischer Bedeutung. Es benötigt keine Historie, da es auf der Ähnlichkeit von Beschreibungen basiert. Dieser Ansatz funktioniert ab der ersten Sitzung und arbeitet natürlich mit der semantischen Suche im Katalog zusammen.
Guardrails für Empfehlungen: Welche Merkmale sind verboten
#Ein Empfehlungsmotor kann Diskriminierung erlernen, wenn historische Daten ungleiche Behandlung von Kunden widerspiegeln. Das ist kein theoretisches Szenario.
Wenn historische Daten zeigen, dass Kunden aus bestimmten Regionen seltener Premium-Angebote erhielten (weil Vertriebsmitarbeiter so gearbeitet haben), wird das Modell diesen Muster lernen und es verfestigen. Der AI Act klassifiziert Systeme, die den Zugang zu Produkten und Dienstleistungen bewerten oder differenzieren, als potenziell hochriskant, insbesondere wenn sie einen Classifier auf demografischen Merkmalen anwenden.
Guardrails für Empfehlungsmotoren umfassen vier Ebenen:
- Denylist geschützter Merkmale. Das Modell darf Geschlecht, Alter, Nationalität, Religion oder ähnliche Attribute nicht als Ranking-Signale verwenden. Die Liste ist in der Konfiguration fest kodiert und hängt nicht vom Ermessen des Modells ab.
- Gleichheitsaudit der Ausgaben. Monatlich prüfen Sie, ob verschiedene demografische Segmente vergleichbare Empfehlungsqualität und Zugang zu ähnlichen Angeboten erhalten.
- Erklärbarkeit auf Anfrage. Der Kunde oder Inspektor kann fragen: „Warum wurde mir dieses Produkt empfohlen?“. Das System muss nachvollziehbare Gründe nennen, nicht nur einen Ähnlichkeitsvektor.
- Human-Gate für Preise. Wenn die Personalisierung den Preis beeinflusst (z. B. Preisspannen, die an das Segment angepasst sind), muss jede Preisänderung im Motor durch eine Freigabe einer Person mit Vertriebsrolle erfolgen.
AI Act und DSGVO: Was Empfehlungen für die Compliance bedeuten
#Der AI Act (vollständig ab 2025 anwendbar) kategorisiert Empfehlungs- und Personalisierungssysteme je nach Kontext. Die meisten E-Commerce- und B2B-Systeme sind nicht automatisch Hochrisikosysteme. Ausnahmen:
- Personalisierung im Finanzbereich (Kreditscoring, Zugang zu Finanzprodukten) — Anhang III AI Act, hohes Risiko.
- Empfehlungen für Rekrutierung oder Mitarbeiterbewertung — Anhang III, hohes Risiko.
- Systeme, die das Verhalten großer Nutzergruppen mit Suchtmechanismen beeinflussen (soziale Medien, Videoplattformen) — unterliegen Art. 5 Verbot manipulierender Praktiken.
Für standardmäßigen B2B-E-Commerce und Dienstleistungsportale liegen Empfehlungen außerhalb der Hochrisikokategorie, erfordern jedoch: Offenlegung, dass Empfehlungen automatisch erfolgen (AI Act Art. 50 Transparenz), Dokumentation des Prozesses (DPIA bei sensiblen Daten) und das Recht, das Profiling abzulehnen (DSGVO Art. 22 für vollautomatisierte Entscheidungen).
Die detaillierten Pflichten für Unternehmen ab 2026 beschreibt der Artikel AI Act und DSGVO 2026.
Erfolgsmessung: KPIs, die etwas aussagen
#Personalisierung ohne Messung ist ein teures Experiment ohne Erkenntnisse. Drei Metriken, die vom ersten Produktionstag an verfolgt werden sollten:
Click-Through-Rate (CTR) der Empfehlungen — wie viel Prozent der angezeigten Empfehlungen zu einem Klick führen. Referenzpunkt ist die CTR vor der Personalisierung oder die CTR der Kontrollgruppe (A/B-Test). Ein Anstieg der CTR um 20-40 % nach der Implementierung von Embeddings ist typisch für den ersten Bereich.
Uplift der Umsätze pro Sitzung — die Differenz im Warenkorbwert zwischen Sitzungen mit aktiver Personalisierung und Sitzungen ohne (oder mit Kontrollgruppe). Das ist eine Zahl für die Geschäftsführung. Bei einem korrekten A/B-Test mit Kontrollgruppe ist ein Uplift von 8-15 % pro Sitzung nach 6-8 Wochen ein realistisches Ziel.
Coverage — der Prozentsatz der Produkte im Katalog, die innerhalb eines Monats in Empfehlungen für mindestens einen Nutzer erscheinen. Eine niedrige Coverage (unter 30 %) signalisiert einen Popularity Bias: Das Modell empfiehlt allen dieselben Bestseller und ignoriert den langen Schwanz des Katalogs.
Das Monitoring eines Empfehlungsmotors hat eine ähnliche Struktur wie das Monitoring eines KI-Agenten, das im Artikel über Monitoring von KI-Agenten-KPIs beschrieben wird — vier Ebenen, Golden Set und Alerts auf Drift.
Live ausprobieren
#Beschreiben Sie Ihren Produkt- oder Dienstleistungskatalog und die aktuelle Methode der Kundensegmentierung, und das Modell zeigt Ihnen, mit welcher Architektur Sie beginnen sollten und welche Daten entscheidend sind (Playground: PII maskiert, keine Speicherung):
FAQ
#Eignet sich KI-Personalisierung für kleine B2B-Unternehmen?
#Ja, aber der Einstiegspunkt sollte zur Skala passen. Für ein Unternehmen mit einigen hundert Kunden und einem stabilen Katalog reicht oft eine semantische Suche auf Embeddings und eine einfache Logik wie „Kunden aus Ihrer Branche haben auch gekauft...“. Ein vollständiges Collaborative Filtering mit Ranking-Modell lohnt sich ab einigen tausend Kunden oder Hunderttausenden von Transaktionen. Bewerten Sie Ihren Ausgangszustand mit dem ROI-Rechner, bevor Sie Budget für die KI-Schicht einsetzen.
Wie lange dauert die Implementierung eines Empfehlungsmotors?
#Das hängt von der Qualität der Ausgangsdaten und der gewählten Architektur ab. Ein Pilot basierend auf Embeddings und semantischer Suche auf einem bestehenden Katalog: in der Regel 3-5 Wochen vom Daten-Audit bis zur ersten Produktionsversion. Ein vollständiges System mit Collaborative Filtering, A/B-Test und Guardrails: 8-14 Wochen. Die Termine verschieben sich meist aufgrund der Qualität der Quelldaten (fehlende Produktbeschreibungen, inkonsistente Kategorien), nicht wegen der Modelle. Einen Schritt-für-Schritt-Implementierungsplan beschreibt der Artikel KI-Implementierungsplan.
Welche Kundendaten benötige ich für die Personalisierung?
#Am wertvollsten sind die Transaktionshistorie (was wurde gekauft, wann, in welcher Kombination) und Verhaltensdaten mit Einwilligung (Klicks, Zeit auf der Seite, Suchanfragen). Sie können nur mit der Bestellhistorie und Produkteigenschaften beginnen, ohne jegliche Verhaltensdaten. Collaborative Filtering auf Transaktionsdaten liefert überraschend gute Ergebnisse mit einem relativ spärlichen Datensatz. Bevor Sie etwas an das Modell senden, planen Sie die PII-Maskierung gemäß den Anonymisierungsrichtlinien.
Wie vermeide ich die Bevorzugung von Bestsellern auf Kosten des restlichen Katalogs?
#Popularity Bias ist das häufigste Problem bei ersten Implementierungen. Drei Korrekturen: (1) Obergrenze für die Häufigkeit von Bestsellern in Empfehlungen pro Sitzung (z. B. maximal 1 aus den Top-10 der Popularität in einem Set von 5 Empfehlungen); (2) Diversity Penalty in der Ranking-Funktion, die Produkte aus verschiedenen Kategorien fördert; (3) Exploration Quota, die einen Platz im Set für ein Produkt reserviert, das der Kunde noch nie angesehen hat, das aber semantisch ähnlich ist. Coverage als monatliche Metrik zeigt automatisch, ob diese Mechanismen wirken.
Kann ein KI-Agent einen klassischen Empfehlungsmotor ersetzen?
#Teilweise. Ein LLM-Agent mit Zugriff auf den Katalog über RAG kommt gut mit der Erklärung von Empfehlungen und der Live-Konfiguration von Produkten in Gesprächen zurecht. Er ist jedoch weniger gut darin, Hunderttausende von Verhaltenssignalen zu verarbeiten, die für Collaborative Filtering benötigt werden. Die optimale Architektur kombiniert beide: Ein klassisches Ranking-Modell generiert Kandidaten, der LLM-Agent wählt daraus aus und formuliert eine für den Kunden verständliche Begründung. Der Artikel KI-Agent vs. Chatbot beschreibt die Grenzen der Möglichkeiten beider Ansätze.