Ein Unternehmen aus der Finanzbranche fragt, ob es ein großes allgemeines Modell durch ein kleineres, spezialisiertes ersetzen und 70 % der Inferenz-Kosten sparen kann. Ein Logistikunternehmen stellt die umgekehrte Frage: Kann ein kleines Modell Kundenanfragen in vier Sprachen bewältigen? Beide Fragen klingen nach einer technischen Angelegenheit, aber die Antwort hängt vor allem von der Aufgabenstruktur, dem Aufrufvolumen und regulatorischen Anforderungen ab.
Dieser Artikel systematisiert die Auswahl. Es gibt keine einzige richtige Antwort. Dafür aber einen Rahmen, mit dem Sie datenbasiert entscheiden – nicht aus dem Bauch heraus.
Was steckt hinter den Begriffen „klein“ und „groß“
#Die Parameterzahl des Modells ist nur eine Achse. 2026 haben sich die Grenzen verschoben: Ein 7B-Modell nach aggressiver Q4-Quantisierung passt in 4–5 GB VRAM und läuft auf einem Laptop. Ein auf Q4 quantisiertes 70B-Modell benötigt ~40 GB VRAM. Ein Modell der GPT-4-Klasse hat Hunderte Milliarden Parameter und ist ausschließlich über Cloud-APIs verfügbar.
Wichtiger als die Parameterzahl ist die Dichte der Spezialisierung: Wie viele domänenspezifische Daten, in welcher Qualität und mit welcher Technik in die Gewichte eingeflossen sind. Ein 7B-Modell nach gutem Fine-Tuning auf einem spezialisierten medizinischen Korpus kann in klinischen Klassifikationsaufgaben ein allgemeines 70B-Modell schlagen. Es wird dieses jedoch nicht im freien Reasoning außerhalb der Domäne übertreffen.
Drei Dimensionen, die die Wahl wirklich definieren:
- Kosten pro Token: Ein kleineres Modell auf eigener Infrastruktur kostet einen Bruchteil der API-Kosten eines großen Cloud-Modells.
- Latenz: Ein 7B-Modell antwortet 3–10× schneller als ein 70B-Modell bei gleicher Hardware-Schicht.
- Qualität bei der Aufgabe: Hängt vom Spezialisierungsgrad ab, nicht von der Parametergröße an sich.
Wann ein kleines spezialisiertes Modell gewinnt
#Enge, repetitive Produktionsaufgaben. Intent-Klassifikation im Kundenservice, Dokumententagging, OCR-Postprocessing, Anonymisierung von PII: Das sind Aufgaben mit begrenztem Ausgaberaum. Ein 7B-Modell, trainiert auf Ihren Daten und Ihren Labels, erreicht bei diesen Aufgaben einen F1-Wert > 0,90, während ein allgemeines 70B-Modell 0,85 bei fünffach höheren Kosten erreicht.
Hohes Aufrufvolumen. Wenn das System 500.000 Aufrufe pro Monat für eine Aufgabe ausführt, wird der Kostenunterschied pro Token zur Budgetlinie, nicht zur Abstraktion. Ein kleines self-hosted-Modell auf eigener GPU amortisiert sich innerhalb weniger Monate. Berechnen Sie Ihren Fall mit dem Inferenz-Rechner.
Data-Residency- und Regulierungsanforderungen. AI Act, RODO und sektorale Bankenregulierungen verlangen oft, dass Daten die EU oder die interne Unternehmensinfrastruktur nicht verlassen. Ein kleines self-hosted-Modell erfüllt diese Anforderung strukturell. Große Cloud-Modelle erfordern detaillierte DPA-Verträge mit dem Anbieter und eine Prüfung der Datenflüsse.
Deterministische Formatvorgaben. Wenn die Ausgabe eine streng definierte Struktur haben muss (z. B. JSON Schema, XML für ERP-Systeme) und das Modell diese über Zehntausende von Aufrufen hinweg einhalten muss, ist ein kleines Modell nach Fine-Tuning mit Structured Output vorhersehbarer als ein großes allgemeines Modell mit Prompt.
Wann ein großes allgemeines Modell gewinnt
#Vielfältige, unvorhersehbare Anfragen. Ein interner Assistent für Mitarbeiter, der sowohl rechtliche als auch technische, HR- und Vertriebsfragen beantwortet, benötigt breites Reasoning. Ein kleines, auf eine Domäne spezialisiertes Modell wird außerhalb dieser Domäne Fehler machen. Ein großes allgemeines Modell bedient ein breites Spektrum von Anfragen ohne Retraining.
Mehrstufiges Reasoning und Agenten. Aufgaben, die Planung, Dekomposition in Teilaufgaben, Tool-Nutzung und Bewertung eigener Ergebnisse erfordern: Hier haben große Modelle einen deutlichen Vorteil. 7B–13B-Modelle im Agent-Modus verlieren oft nach wenigen Schritten den Kontext oder generieren fehlerhafte Tool-Aufrufe.
Mehrsprachigkeit ohne zusätzliches Training. Ein allgemeines Modell der 70B+-Klasse unterstützt Dutzende Sprachen mit hoher Qualität. Ein kleines, auf polnische Daten trainiertes Modell beherrscht Polnisch gut, aber Englisch, Deutsch und Ukrainisch nicht auf demselben Niveau. Prüfen Sie das Muster des mehrsprachigen KI-Assistenten.
Schneller Start ohne Trainingsdaten. Ein Pilot kann innerhalb von Wochen mit einem großen Modell durch RAG und Prompt gestartet werden. Ein kleines spezialisiertes Modell erfordert das Sammeln von Daten, Training und Evaluation. Was das in der Praxis bedeutet, beschreibt der Artikel wann Fine-Tuning sinnvoll ist.
Entscheidungstabelle: kleines vs. großes Modell
#| Kriterium | Kleines spezialisiertes Modell (7B–14B) | Großes allgemeines Modell (70B+/API) |
|---|---|---|
| Inferenzkosten bei Skalierung | niedrig (self-hosted) | hoch (API) oder sehr hoch (self-hosted 70B) |
| Antwortlatenz | 100–400 ms | 500 ms–3 s (API), 1–5 s (70B local) |
| Enge, repetitive Aufgaben | sehr gute Qualität nach Fine-Tuning | gut, aber teuer |
| Vielfältige, nicht standardisierte Aufgaben | schwach außerhalb der Trainingsdomäne | sehr gut |
| Mehrstufiges Reasoning (Agenten) | begrenzt | sehr gut |
| Mehrsprachigkeit | erfordert dediziertes Training | in den meisten 70B+-Modellen integriert |
| Data-Residency / Self-Hosting | nativ | erfordert DPA-Verträge oder dedizierte Instanz |
| Zeit für Pilotimplementierung | Wochen–Monate (Daten erforderlich) | Tage–Wochen (RAG + Prompt) |
| Wissensaktualisierung ohne Retraining | durch RAG | durch RAG |
| Versionskontrolle | vollständig | abhängig vom API-Anbieter |
Modell-Router als praktischer Ausweg aus der Dichotomie
#Die meisten Unternehmen sollten nicht zwischen einer Modellgröße wählen. Das Muster des Modell-Routers ermöglicht es, den Traffic basierend auf der Komplexität der Anfrage an das richtige Modell zu leiten:
- Ein vorläufiger Klassifikator bewertet die Anfrage: einfache Frage aus dem FAQ-Katalog, Anfrage mit Reasoning-Bedarf oder Anfrage außerhalb der Domäne.
- Ein einfaches, günstiges Modell bearbeitet repetitive Anfragen (Klassifikation, Datenextraktion, einfaches FAQ).
- Das große Modell erhält nur die Anfragen, die es wirklich erfordern: mehrstufiges Reasoning, unbekannte Themen, Eskalationen.
Effekt: 60–80 % des Traffics gehen an das günstige Modell, während die Qualität bei schwierigen Anfragen nicht leidet. Die Gesamtkosten betragen einen Bruchteil der Kosten, wenn alles an das große Modell geroutet würde.
Der Router erfordert Monitoring: Prüfen Sie, ob der Klassifikator schwierige Anfragen fälschlicherweise an das kleine Modell leitet (falsch als einfach eingestuft) und ob die Eskalationen nicht über einen Schwellenwert steigen (Signal für Drift).
Sicherheit und Guardrails bei kleinen Modellen
#Kleine spezialisierte Modelle haben andere Risikoprofile als große allgemeine Modelle. Einige Fakten, die vor der Implementierung bekannt sein sollten:
Ein kleines Modell nach aggressivem Fine-Tuning kann anfälliger für Prompt Injection sein als ein großes allgemeines Modell, das Tausende von Angriffsbeispielen im Pretraining gesehen hat. Guardrails auf Anwendungsebene (Eingabefilter, Ausgabefilter, Human-Gate für irreversible Aktionen) sind unabhängig von der Modellgröße Pflicht.
Ein kleines Modell versteht möglicherweise den Befehl „weiß ich nicht“ nicht so gut wie ein großes. Wenn eine Frage außerhalb der Trainingsdomäne gestellt wird, generiert das Modell möglicherweise eine überzeugend klingende, aber falsche Antwort. Implementieren Sie Human-Handoff: Wenn die Antwortsicherheit unter einen Schwellenwert fällt, eskaliert das System an einen Menschen, statt zu halluzinieren.
Für Hochrisikosysteme gemäß AI Act (Anhang III: Rekrutierung, Kreditscoring, kritische Infrastruktur) sind Modelldokumentation, Nachvollziehbarkeit von Entscheidungen und Audit-Trails erforderlich – unabhängig von der Größe. Kleine Modelle befreien nicht von diesen Pflichten; manchmal ist es schwieriger, sie zu erfüllen, wenn die Dokumentation des ursprünglichen Basismodells weniger umfangreich ist als bei großen Cloud-Modellen.
Die Frage der Data-Residency und RODO
#Kleine self-hosted-Modelle haben einen natürlichen regulatorischen Vorteil: Daten verlassen nicht Ihre Infrastruktur. Aber Self-Hosting ist nicht nur der Server. Anforderungen:
- Versionsmanagement des Modells: Jeder Checkpoint mit Markierung der Trainingsdaten und Evaluationsergebnisse.
- Verschlüsselung im Ruhezustand und während der Übertragung: Modellgewichte sind Unternehmenswerte, behandeln Sie sie wie Quellcode.
- Zugriffs-Audit: Wer und wann Inferenz ausgeführt hat, mit welchen Eingabedaten.
- Aktualisierungsplan: Kleine Modelle driften gegenüber der wachsenden Faktenbasis; legen Sie eine Richtlinie für Retraining oder RAG-Ergänzung fest.
Wenn die Eingabedaten personenbezogene Daten enthalten, führen Sie vor der Implementierung eine DPIA durch. Dies gilt auch für kleine lokal betriebene Modelle. Die Tatsache, dass Daten nicht nach außen gelangen, befreit nicht von der Pflicht zur Risikobewertung.
Wie wählt man das Modell für sein Unternehmen aus
#Beantworten Sie vor der Entscheidung fünf Fragen:
1. Wie eng ist die Aufgabe? Eine Aufgabe, konsistente Ausgabe: kleines Modell. Viele verschiedene Aufgaben: großes Modell oder Router.
2. Wie hoch ist das monatliche Aufrufvolumen? Unter 50.000 Aufrufen pro Monat ist der Kostenunterschied relativ gering. Über 200.000 lohnt sich ein kleines self-hosted-Modell finanziell.
3. Haben Sie Trainingsdaten? Ohne mindestens 500 qualitativ hochwertige Eingabe-Ausgabe-Paare erreicht das kleine Modell nicht sein Potenzial. Prüfen Sie dies in der Bewertung der Einsatzbereitschaft.
4. Welche Latenzanforderungen gibt es? Sprachinteraktion oder Echtzeit-Chat erfordern < 500 ms. Dokumentenverarbeitung im Hintergrund toleriert 3–10 Sekunden.
5. Welche regulatorischen Anforderungen gibt es? Data-Residency, AI Act High-Risk, RODO: Eine vorläufige Analyse dieser Anforderungen entscheidet oft schneller als technische Metriken.
Eine Vorlage für die Antworten auf diese Fragen finden Sie im Agent-Blueprint oder besprechen Sie Ihren Fall über Kontakt.
Probieren Sie es live aus
#Beschreiben Sie Ihren Anwendungsfall. Das Modell bewertet, ob ein kleines spezialisiertes Modell, ein großes allgemeines Modell oder ein Router die richtige Wahl ist (Playground: PII maskiert, keine Speicherung):
FAQ
#Kann ein kleines Modell ein großes in allen Aufgaben ersetzen?
#Nein. Ein kleines, auf eine bestimmte Domäne spezialisiertes Modell schneidet in dieser einen Domäne besser ab als ein großes allgemeines Modell, aber nur dort. Für Aufgaben außerhalb der Trainingsdomäne sinkt die Qualität drastisch. Daher sollte die Entscheidung für ein Modell eine Architekturentscheidung sein: eine Aufgabe oder das Router-Muster für mehrere Aufgaben.
Wie viel GPU brauche ich, um ein kleines Modell zu betreiben?
#Ein auf Q4 quantisiertes 7B-Modell benötigt 4–6 GB VRAM und läuft auf einer Consumer-Grafikkarte wie RTX 3090 oder RTX 4090. Ein quantisiertes 13B-Modell benötigt 8–10 GB VRAM. Dadurch ist Self-Hosting kleiner Modelle für mittelständische Unternehmen finanziell erschwinglich. Detaillierte Hardwareübersichten finden Sie im Artikel Lokale LLM: Welche Hardware und GPU.
Ist ein Modell-Router schwer zu warten?
#Der Router führt eine zusätzliche Architekturschicht ein, aber bei gutem Design sind die Wartungskosten gering. Entscheidend ist das Monitoring von Routing-Fehlern: Wenn der Klassifikator schwierige Anfragen fälschlicherweise an das günstige Modell leitet, sinkt die Qualität ohne offensichtlichen Alarm. Minimales Monitoring umfasst die Verfolgung der Eskalationsrate und das Sampling der Antworten des kleinen Modells. Das Monitoring-Muster beschreibt Monitoring der Agentenqualität.
Was tun, wenn mein kleines Modell außerhalb der Domäne halluziniert?
#Fügen Sie einen Eingabe-Guardrail hinzu: Ein Klassifikator bewertet, ob die Anfrage in die Domäne passt. Falls nicht, leitet er sie an das große Modell weiter oder gibt eine Meldung über fehlende Kompetenz aus und eskaliert an einen Menschen (Human-Handoff). Verlassen Sie sich niemals darauf, dass das Modell „selbst zugibt, es nicht zu wissen“. Kleine Modelle sind darin nicht zuverlässig.
Wie anfangen, ohne sofort ein großes Investment zu riskieren?
#Starten Sie mit einem Pilotprojekt mit einem großen Modell durch RAG – das dauert Wochen, nicht Monate, und ermöglicht das Sammeln realer Daten zu Volumen, Anfragearten und Antwortqualität. Nach 4–8 Wochen haben Sie Daten für die Entscheidung: Ist der Traffic homogen genug, um ein kleines Modell zu rechtfertigen, und rechtfertigt das Volumen die Investition in Self-Hosting? Das Tool ROI-Rechner ermöglicht die Berechnung von Szenarien vor Projektstart.