Wie man das richtige KI-Modell für die Aufgabe wählt (und n…

Die häufigste Frage lautet: „Welches KI-Modell ist das beste?“. Das ist die falsche Frage – wie „Welches Auto ist das beste?“, ohne zu sagen, ob man Zement transportiert oder auf der Rennstrecke fährt. Die bessere Frage: Welches Modell für diese konkrete Aufgabe, bei meinen Kosten und meinen Daten?

Es gibt nicht das eine beste Modell#

Modelle unterscheiden sich im Profil, nicht in der „allgemeinen Intelligenz“. Eines startet die Antwort in 0,4 s, ist aber kleiner. Ein anderes hat ein Kontextfenster von einer Million Token, antwortet aber langsam. Ein drittes schreibt hervorragend Code, fasst aber schlecht zusammen. Die Wahl „eines für alles“ bedeutet, dass man für einfache Aufgaben mit Leistung überzahlt und bei schwierigen an Qualität mangelt.

Deshalb setzen wir nicht auf ein Modell, sondern auf einen Router, der über eine ganze Flotte verfügt und daraus das passende Werkzeug für das Problem auswählt.

Beginne mit der Aufgabe, nicht mit dem Modell#

Zuerst benenne die Aufgabe, dann wähle die Modellklasse. In der Praxis reichen einige Kategorien:

Gespräch / Assistent auf Wissensbasis – ein Instruct-Modell mit guter Balance zwischen Qualität und Latenz.
Schlussfolgerung – ein „denkendes“ Modell (siehe unten), bewusst eingesetzt, wo Treffsicherheit der Entscheidung zählt.
Code – ein auf Programmierung spezialisiertes Modell; Durchsatzleistung zählt, da Antworten oft lang sind.
Schnell / günstig / Klassifizierung – ein kleines, blitzschnelles Modell für Intent-Routing, Tagging, Feldextraktion.
Vision – ein multimodales Modell, das Bild und Text gemeinsam versteht.
Zusammenfassen – ein nicht-„denkendes“ Modell, das kondensiert, statt zu philosophieren.

Diese Aufgaben→Modell-Map pflegen wir als konkrete Routing-Matrix – jede Aufgabe hat ein Haupt- und ein Backup-Modell. Sieh dir an, welches Modell was übernimmt, im Modellatlas, und wie wir sie zu fertigen Systemen zusammenbauen – im Abschnitt wie wir es bauen.

Der Name täuscht – messe#

Modellnamen suggerieren Geschwindigkeit und Qualität, die nicht vorhanden sind. „Flash“, „pro“, „large“ sind Marketing, keine Messung. Aus unseren eigenen Messungen: Ein Modell mit „flash“ im Namen schafft manchmal 0,6 Token pro Sekunde (sehr langsam), während ein großes „671B“-Modell 4,5 Token pro Sekunde liefert – also mehrere Male schneller. Würden wir dem Namen vertrauen, hätten wir das Gegenteil gewählt.

Deshalb wählen wir jedes Modell durch Messung aus: Zeit bis zum ersten Token (TTFT), Durchsatzleistung (Token/s), reales Kontextfenster und ob das Modell überhaupt Inhalt im jeweiligen Modus zurückgibt. Die Zahlen auf den Modellseiten stammen vom Live-Router, nicht aus Datenblättern.

Hält das Modell „durch“ – prüfe es am Golden-Set#

Technische Metriken (TTFT, Token/s, Kontextfenster) sagen, ob ein Modell schnell und stabil ist, aber nicht, ob es inhaltlich gut für deine Aufgabe ist. Um das zu klären, baue ein Golden-Set: einige Dutzend repräsentative Fälle aus deinen eigenen Daten plus eine klare Akzeptanzmetrik (z. B. Treffsicherheit der Antwort mit Quellenangabe, Korrektheit der Feldextraktion). Ein Modell qualifiziert sich erst dann als „bewältigt es“, wenn es dieses Tor passiert – und dasselbe Tor wiederholst du bei jeder Modelländerung, um Regressionen zu erkennen. Wie man das misst, beschreiben wir in der Evaluierung von KI-Agenten und in unserer Methodik.

„Denkende“ Modelle (thinking) – wann lohnen sie sich?#

Einige moderne Modelle sind „denkende“ Modelle: Bevor sie antworten, führen sie interne Schlussfolgerungen durch. Das ist mächtig bei schwierigen Entscheidungen – und teuer sowie langsam bei einfachen Aufgaben. Schlimmer noch: Wenn man sie „zwangsweise“ für normalen Chat einsetzt, können sie das gesamte Budget für Schlussfolgerungen verbrennen und eine leere Antwort zurückgeben.

Die Regel ist einfach: Den Schlussfolgerungsmodus nur für Aufgaben aktivieren, die ihn wirklich erfordern (Analyse, Schrittplanung für Agenten, schwierige Entscheidungen). Für Gespräche, Übersetzungen, Code und Zusammenfassungen ausschalten – schneller, günstiger und mit garantiertem Inhalt. Der Router übernimmt das automatisch für dich.

Kosten und Daten beeinflussen auch die Modellwahl#

Die Auswahl hängt nicht nur von der Qualität ab:

Kosten – die Cloud rechnet nach GPU-Laufzeit ab, daher ist ein langsameres oder größeres Modell eine teurere Antwort. Eine Größenordnung aus unseren eigenen Messungen: Derselbe Output, mit einem kleinen Modell berechnet (ca. 59 Token/s), entsteht rund 13× schneller als mit einem Flaggschiff-Modell (ca. 4,5 Token/s) – er beansprucht also rund 13× weniger GPU-Zeit und kostet daher proportional weniger. Das günstigste Modell, das die Aufgabe bewältigt, gewinnt.
Sensible Daten – wenn du regulierte Daten (DSGVO) verarbeitest, halte einen Teil der Verarbeitung lokal: Embeddings lokal berechnen und PII maskieren, bevor etwas in die Cloud geht. Maskierung verringert das Risiko, aber über die volle Compliance entscheiden auch die Rechtsgrundlage, der Ort der Verarbeitung (Übermittlung außerhalb des EWR) und der Auftragsverarbeitungsvertrag mit dem Anbieter – und bei besonders sensiblen Inhalten (Verträge, Gesundheitsdaten) ist der Kontext selbst sensibel, nicht nur die Namen. Wie man das einrichtet, besprechen wir in Self-hosted LLM und DSGVO.
Zuverlässigkeit – ein einzelnes Modell kann vorübergehend überlastet sein; daher hat jede Aufgabe eine Backup-Kette, keinen einzelnen Ausfallpunkt.

Kleine Entscheidungstabelle#

Dein Problem	Modellklasse	Worauf es am meisten ankommt
Kunden finden keine Antworten	Gespräch + RAG	Qualität, Natürlichkeit, Zitate
Eine schwierige Entscheidung treffen	Schlussfolgerung (thinking)	Treffsicherheit, Kontextfenster
Code generieren / refaktorieren	Code	Durchsatzleistung, langer Output
Routing, Tagging, Extraktion	schnell / klein	TTFT und Token/s, niedrige Kosten
Analyse von Bildern, Dokumenten	Vision (multimodal)	Bild- und Textverständnis
Lange Inhalte kürzen	Zusammenfassen	Geschwindigkeit, kein „Philosophieren“
Reicht dieses Modell aus?	beliebige Klasse	Ergebnis am Golden-Set + Akzeptanzmetrik

Wenn du das konkret für deinen Fall durchgehen möchtest, haben wir einen interaktiven Stack-Auswahlassistenten – ein paar Fragen und eine Empfehlung für die Schichten, inklusive Modelle.

Live ausprobieren#

Das folgende Beispiel startet ein Modell über unseren sicheren Sandbox – denselben wie im Playground: PII maskiert, keine Retention, dieselben Limits. Stelle eine Frage zur Modellauswahl und sieh dir die Antwort an.

▶Frage zur Modellauswahlsandbox · reasoning

FAQ#

Welches KI-Modell ist das beste für ein Unternehmen?#

Kein einzelnes. Am besten ist ein Router, der für jede Aufgabe das günstigste Modell auswählt, das sie bewältigen kann – Gespräche, Schlussfolgerungen, Code, Vision und Zusammenfassungen haben unterschiedliche Profile, daher unterschiedliche Modelle. Die Wahl „eines für alles“ führt entweder zu Überzahlung bei einfachen Aufgaben oder zu Qualitätsmängeln bei schwierigen.

Woran erkenne ich, ob ein Modell zur Aufgabe passt?#

Durch Messung, nicht durch den Namen. Prüfe die Zeit bis zum ersten Token, Durchsatzleistung (Token/s), reales Kontextfenster und ob das Modell im jeweiligen Modus Inhalt zurückgibt. Namen wie „flash“ oder „large“ können irreführend sein – manchmal ist ein „flash“-Modell langsamer als ein großes Modell.

Wann sollte man „denkende“ Modelle (reasoning) verwenden?#

Nur bei Aufgaben, die wirklich Schlussfolgerungen erfordern – Analyse, Planung, schwierige Entscheidungen. Für Gespräche, Übersetzungen und Zusammenfassungen den Schlussfolgerungsmodus ausschalten: Er ist langsamer, teurer und kann eine leere Antwort liefern, wenn die Aufgabe ihn nicht braucht.

Kann ich ein Modell für alles verwenden, um es einfacher zu halten?#

Kann man, aber es lohnt sich selten. Ein Modell für alles bedeutet, dass man für einfache Aufgaben mit Leistung überzahlt und bei schwierigen Kompromisse bei der Qualität eingeht. Ein Router mit mehreren Modellen ist günstiger und zuverlässiger, und die Komplexität übernimmt die Schicht, nicht du.

Es gibt nicht das eine beste Modell#

Deshalb setzen wir nicht auf ein Modell, sondern auf einen Router, der über eine ganze Flotte verfügt und daraus das passende Werkzeug für das Problem auswählt.

Beginne mit der Aufgabe, nicht mit dem Modell#

Zuerst benenne die Aufgabe, dann wähle die Modellklasse. In der Praxis reichen einige Kategorien:

Gespräch / Assistent auf Wissensbasis – ein Instruct-Modell mit guter Balance zwischen Qualität und Latenz.
Schlussfolgerung – ein „denkendes“ Modell (siehe unten), bewusst eingesetzt, wo Treffsicherheit der Entscheidung zählt.
Code – ein auf Programmierung spezialisiertes Modell; Durchsatzleistung zählt, da Antworten oft lang sind.
Schnell / günstig / Klassifizierung – ein kleines, blitzschnelles Modell für Intent-Routing, Tagging, Feldextraktion.
Vision – ein multimodales Modell, das Bild und Text gemeinsam versteht.
Zusammenfassen – ein nicht-„denkendes“ Modell, das kondensiert, statt zu philosophieren.

Der Name täuscht – messe#

Hält das Modell „durch“ – prüfe es am Golden-Set#

„Denkende“ Modelle (thinking) – wann lohnen sie sich?#

Kosten und Daten beeinflussen auch die Modellwahl#

Die Auswahl hängt nicht nur von der Qualität ab:

Kosten – die Cloud rechnet nach GPU-Laufzeit ab, daher ist ein langsameres oder größeres Modell eine teurere Antwort. Eine Größenordnung aus unseren eigenen Messungen: Derselbe Output, mit einem kleinen Modell berechnet (ca. 59 Token/s), entsteht rund 13× schneller als mit einem Flaggschiff-Modell (ca. 4,5 Token/s) – er beansprucht also rund 13× weniger GPU-Zeit und kostet daher proportional weniger. Das günstigste Modell, das die Aufgabe bewältigt, gewinnt.
Sensible Daten – wenn du regulierte Daten (DSGVO) verarbeitest, halte einen Teil der Verarbeitung lokal: Embeddings lokal berechnen und PII maskieren, bevor etwas in die Cloud geht. Maskierung verringert das Risiko, aber über die volle Compliance entscheiden auch die Rechtsgrundlage, der Ort der Verarbeitung (Übermittlung außerhalb des EWR) und der Auftragsverarbeitungsvertrag mit dem Anbieter – und bei besonders sensiblen Inhalten (Verträge, Gesundheitsdaten) ist der Kontext selbst sensibel, nicht nur die Namen. Wie man das einrichtet, besprechen wir in Self-hosted LLM und DSGVO.
Zuverlässigkeit – ein einzelnes Modell kann vorübergehend überlastet sein; daher hat jede Aufgabe eine Backup-Kette, keinen einzelnen Ausfallpunkt.

Kleine Entscheidungstabelle#

Dein Problem	Modellklasse	Worauf es am meisten ankommt
Kunden finden keine Antworten	Gespräch + RAG	Qualität, Natürlichkeit, Zitate
Eine schwierige Entscheidung treffen	Schlussfolgerung (thinking)	Treffsicherheit, Kontextfenster
Code generieren / refaktorieren	Code	Durchsatzleistung, langer Output
Routing, Tagging, Extraktion	schnell / klein	TTFT und Token/s, niedrige Kosten
Analyse von Bildern, Dokumenten	Vision (multimodal)	Bild- und Textverständnis
Lange Inhalte kürzen	Zusammenfassen	Geschwindigkeit, kein „Philosophieren“
Reicht dieses Modell aus?	beliebige Klasse	Ergebnis am Golden-Set + Akzeptanzmetrik

Wenn du das konkret für deinen Fall durchgehen möchtest, haben wir einen interaktiven Stack-Auswahlassistenten – ein paar Fragen und eine Empfehlung für die Schichten, inklusive Modelle.

Wie man das richtige KI-Modell für die Aufgabe wählt (und nicht für den Hype)

Es gibt nicht das eine beste Modell#

Beginne mit der Aufgabe, nicht mit dem Modell#

Der Name täuscht – messe#

Hält das Modell „durch“ – prüfe es am Golden-Set#

„Denkende“ Modelle (thinking) – wann lohnen sie sich?#

Kosten und Daten beeinflussen auch die Modellwahl#

Kleine Entscheidungstabelle#

Live ausprobieren#

FAQ#

Welches KI-Modell ist das beste für ein Unternehmen?#

Woran erkenne ich, ob ein Modell zur Aufgabe passt?#

Wann sollte man „denkende“ Modelle (reasoning) verwenden?#

Kann ich ein Modell für alles verwenden, um es einfacher zu halten?#

Wie man das richtige KI-Modell für die Aufgabe wählt (und nicht für den Hype)

Es gibt nicht das eine beste Modell#

Beginne mit der Aufgabe, nicht mit dem Modell#

Der Name täuscht – messe#

Hält das Modell „durch“ – prüfe es am Golden-Set#

„Denkende“ Modelle (thinking) – wann lohnen sie sich?#

Kosten und Daten beeinflussen auch die Modellwahl#

Kleine Entscheidungstabelle#

Live ausprobieren#

FAQ#

Welches KI-Modell ist das beste für ein Unternehmen?#

Woran erkenne ich, ob ein Modell zur Aufgabe passt?#

Wann sollte man „denkende“ Modelle (reasoning) verwenden?#

Kann ich ein Modell für alles verwenden, um es einfacher zu halten?#