Die Debatte „lokal oder Cloud“ hat selten eine eindeutige Antwort, denn es geht nicht um die Wahl der Technologie, sondern um das Kostenprofil. Die Cloud verursacht variable Kosten (OPEX), die mit dem Traffic steigen. Self-Hosting bedeutet hauptsächlich fixe Kosten (CAPEX + Wartung), die fast unabhängig vom Traffic sind. Welche Struktur günstiger ist, hängt davon ab, wie viel du wirklich nutzt.
Zwei Kostenprofile
#| Lokal (self-hosted) | API in der Cloud | |
|---|---|---|
| Einstiegskosten | Hoch (Hardware, Implementierung) | Nahezu null (API-Schlüssel) |
| Stückkosten | Niedrig, vorhersehbar | Variabel, steigt mit dem Traffic |
| Kostenskalierung | Flach bis zur Hardware-Grenze | Linear mit dem Volumen |
| Datenschutz | Daten bleiben bei dir | Daten gehen an den Anbieter |
| Optimal bei | Konstantem, hohem Volumen | Geringem, unregelmäßigem Traffic |
So berechnest du den Schnittpunkt
#Berechne die monatlichen Cloud-Kosten (Anzahl der Anfragen × Kosten pro Aufruf) und vergleiche sie mit der monatlichen Amortisation deiner eigenen Infrastruktur (Hardware über die Zeit verteilt + Strom + Wartung). Das Volumen, bei dem sich diese beiden Zahlen angleichen, ist dein Schnittpunkt. Darunter bleibst du in der Cloud; darüber beginnt Self-Hosting zu sparen.
Warum die Hybridlösung meist gewinnt
#Selten ist alles „klein“ oder „groß“. Konstante, hochvolumige Aufgaben (Klassifizierung, Embeddings, semantische Suche mit BGE-M3) lassen sich lokal günstig abwickeln. Seltene, rechenintensive Inferenzen kaufst du bequem in der Cloud ein. Ein Router leitet jede Aufgabe dorthin, wo sie am günstigsten und sichersten ist – und genau dieser Router, der das Modell zur Aufgabe passend auswählt, ist der größte Kostentreiber, unabhängig von der Wahl lokal/Cloud.
Kosten sind mehr als nur die Rechnung
#Berücksichtige im Kalkül auch das Risiko des Lock-ins (Preisänderungen des Anbieters) und die Compliance-Kosten (personenbezogene Daten, die in die Cloud gehen, bedeuten zusätzliche Pflichten – siehe self-hosted LLM und RODO). Vorhersehbarkeit kann mehr wert sein als ein paar Prozent auf der Rechnung.
FAQ
#Wann ist ein eigenes Modell günstiger als eine API?
#Wenn du ein konstantes, hohes Volumen hast. Die hohen Einstiegskosten verteilen sich dann auf viele Anfragen, und die Stückkosten sinken unter den Cloud-Preis. Bei geringem oder unregelmäßigem Traffic bleibt die API günstiger.
Muss ich mich für eine Option entscheiden?
#Nein. Meist ist eine Hybridlösung optimal: lokal erledigst du günstige, hochvolumige Aufgaben, und die Cloud reservierst du für seltene, rechenintensive Inferenzen. Ein Router verbindet beides zu einem einzigen Workflow.
Was senkt die LLM-Rechnung am stärksten?
#Die Auswahl des richtigen Modells für die Aufgabe. Einfache Workflows an ein kleines, günstiges Modell zu leiten und das große Modell nur dort einzusetzen, wo es nötig ist, spart meist mehr als die Wahl zwischen lokal und Cloud.