Kosten von LLM: lokal vs. Cloud-API

Die Debatte „lokal oder Cloud“ hat selten eine eindeutige Antwort, denn es geht nicht um die Wahl der Technologie, sondern um das Kostenprofil. Die Cloud verursacht variable Kosten (OPEX), die mit dem Traffic steigen. Self-Hosting bedeutet hauptsächlich fixe Kosten (CAPEX + Wartung), die fast unabhängig vom Traffic sind. Welche Struktur günstiger ist, hängt davon ab, wie viel du wirklich nutzt.

Zwei Kostenprofile#

Kosten von LLM: lokal vs. Cloud-API
	Lokal (self-hosted)	API in der Cloud
Einstiegskosten	Hoch (Hardware, Implementierung)	Nahezu null (API-Schlüssel)
Stückkosten	Niedrig, vorhersehbar	Variabel, steigt mit dem Traffic
Kostenskalierung	Flach bis zur Hardware-Grenze	Linear mit dem Volumen
Datenschutz	Daten bleiben bei dir	Daten gehen an den Anbieter
Optimal bei	Konstantem, hohem Volumen	Geringem, unregelmäßigem Traffic

So berechnest du den Schnittpunkt#

Berechne die monatlichen Cloud-Kosten (Anzahl der Anfragen × Kosten pro Aufruf) und vergleiche sie mit der monatlichen Amortisation deiner eigenen Infrastruktur (Hardware über die Zeit verteilt + Strom + Wartung). Das Volumen, bei dem sich diese beiden Zahlen angleichen, ist dein Schnittpunkt. Darunter bleibst du in der Cloud; darüber beginnt Self-Hosting zu sparen.

Rechnen wir das an einem Beispiel durch (Preise sind Richtwerte, prüfe sie gegen die aktuelle Preisliste – API- und Hardware-Tarife ändern sich schnell). Nehmen wir eine typische Aufgabe an: ~1 Tsd. Eingabe-Tokens + ~0,5 Tsd. Ausgabe-Tokens. Bei einem Modell der mittleren Klasse (Größenordnung ca. 0,30 USD pro 1 Mio. Eingabe-Tokens und ca. 1,20 USD pro 1 Mio. Ausgabe) kostet ein einzelner Aufruf ca. 0,0009 USD. Auf der Self-Hosting-Seite nimm eine GPU-Box, über 36 Monate verteilt, plus Strom und Wartung – realistisch liegt das in einer Spanne von ca. 600–1200 USD pro Monat, je nach Kartenklasse und ob die Hardware mit anderen Workloads geteilt wird.

Volumen / Monat	Cloud-Kosten (Richtwert)	Self-Host-Kosten (Spanne)
0,5 Mio. Aufrufe	~450 USD	~600–1200 USD
2 Mio. Aufrufe	~1800 USD	~600–1200 USD
5 Mio. Aufrufe	~4500 USD	~600–1200 USD

In diesem Szenario kreuzen sich die Linien irgendwo zwischen 0,5 und 2 Mio. Aufrufen pro Monat – oberhalb dieser Schwelle beginnen sich die festen Hardware-Kosten zu rechnen. Das ist nur ein illustratives Profil: längere Prompts, RAG und teurere Modelle verschieben die Schwelle nach unten (die Cloud wird schneller teuer), günstigere Aufgaben nach oben. Berechne deine eigene Schwelle im Rechner für Inferenzkosten – und sobald dein Volumen sie überschreitet, ist der nächste Schritt die Migration von einer API zum eigenen Modell, die denselben Schnittpunkt in der Praxis quantifiziert.

Warum die Hybridlösung meist gewinnt#

Selten ist alles „klein“ oder „groß“. Konstante, hochvolumige Aufgaben (Klassifizierung, Embeddings, semantische Suche mit BGE-M3) lassen sich lokal günstig abwickeln. Seltene, rechenintensive Inferenzen kaufst du bequem in der Cloud ein. Ein Router leitet jede Aufgabe dorthin, wo sie am günstigsten und sichersten ist – und genau dieser Router, der das Modell zur Aufgabe passend auswählt, ist der größte Kostentreiber, unabhängig von der Wahl lokal/Cloud.

Kosten sind mehr als nur die Rechnung#

Berücksichtige im Kalkül auch das Risiko des Lock-ins (Preisänderungen des Anbieters), die Wartungskosten (die gesamten TCO: Monitoring, Updates, Bereitschaftsdienst) und die Compliance-Kosten (personenbezogene Daten, die in die Cloud gehen, bedeuten zusätzliche Pflichten – siehe self-hosted LLM und DSGVO). Vorhersehbarkeit kann mehr wert sein als ein paar Prozent auf der Rechnung.

FAQ#

Wann ist ein eigenes Modell günstiger als eine API?#

Wenn du ein konstantes, hohes Volumen hast. Die hohen Einstiegskosten verteilen sich dann auf viele Anfragen, und die Stückkosten sinken unter den Cloud-Preis. Bei geringem oder unregelmäßigem Traffic bleibt die API günstiger.

Muss ich mich für eine Option entscheiden?#

Nein. Meist ist eine Hybridlösung optimal: lokal erledigst du günstige, hochvolumige Aufgaben, und die Cloud reservierst du für seltene, rechenintensive Inferenzen. Ein Router verbindet beides zu einem einzigen Workflow.

Was senkt die LLM-Rechnung am stärksten?#

Die Auswahl des richtigen Modells für die Aufgabe. Einfache Workflows an ein kleines, günstiges Modell zu leiten und das große Modell nur dort einzusetzen, wo es nötig ist, spart meist mehr als die Wahl zwischen lokal und Cloud. Direkt dahinter folgt die Optimierung der Token-Kosten – kürzere Prompts, Caching und Kontrolle der Kontextlänge.

Zwei Kostenprofile#

Kosten von LLM: lokal vs. Cloud-API
	Lokal (self-hosted)	API in der Cloud
Einstiegskosten	Hoch (Hardware, Implementierung)	Nahezu null (API-Schlüssel)
Stückkosten	Niedrig, vorhersehbar	Variabel, steigt mit dem Traffic
Kostenskalierung	Flach bis zur Hardware-Grenze	Linear mit dem Volumen
Datenschutz	Daten bleiben bei dir	Daten gehen an den Anbieter
Optimal bei	Konstantem, hohem Volumen	Geringem, unregelmäßigem Traffic

So berechnest du den Schnittpunkt#

Volumen / Monat	Cloud-Kosten (Richtwert)	Self-Host-Kosten (Spanne)
0,5 Mio. Aufrufe	~450 USD	~600–1200 USD
2 Mio. Aufrufe	~1800 USD	~600–1200 USD
5 Mio. Aufrufe	~4500 USD	~600–1200 USD

Kosten von LLM: lokal vs. Cloud-API – wann lohnt sich was?

Zwei Kostenprofile#

So berechnest du den Schnittpunkt#

Warum die Hybridlösung meist gewinnt#

Kosten sind mehr als nur die Rechnung#

FAQ#

Wann ist ein eigenes Modell günstiger als eine API?#

Muss ich mich für eine Option entscheiden?#

Was senkt die LLM-Rechnung am stärksten?#

Kosten von LLM: lokal vs. Cloud-API – wann lohnt sich was?

Zwei Kostenprofile#

So berechnest du den Schnittpunkt#

Warum die Hybridlösung meist gewinnt#

Kosten sind mehr als nur die Rechnung#

FAQ#

Wann ist ein eigenes Modell günstiger als eine API?#

Muss ich mich für eine Option entscheiden?#

Was senkt die LLM-Rechnung am stärksten?#