Wenn ein Unternehmen sich für Fine-Tuning entscheidet, lautet die erste Frage meist: „Welche Grafikkarte sollen wir kaufen?“. Diese Frage kommt zu früh. Bevor es um Hardware und Budget geht, lohnt es sich zu verstehen, was LoRA und QLoRA tatsächlich tun und warum sie die gesamte Ökonomie dieses Ansatzes verändern.
Was LoRA und QLoRA tatsächlich tun
#Ein vollständiges Fine-Tuning modifiziert alle Gewichte des Modells. Für ein 7B-Modell sind das mehrere Milliarden Parameter, jeder als Gleitkommazahl gespeichert. Ein solches Training erfordert ab 40 GB VRAM und ist praktisch ohne GPU-Cluster nicht durchführbar.
LoRA (Low-Rank Adaptation) zerlegt die Gewichtsaktualisierung in zwei deutlich kleinere Matrizen mit niedrigem Rang. Statt die gesamte Gewichtsmatrix W (z. B. 4096 × 4096) zu modifizieren, werden zwei Matrizen A und B mit den Dimensionen 4096 × r und r × 4096 trainiert, wobei r ein Hyperparameter zwischen 4 und 64 ist. Während der Inferenz wird der Adapter einfach zu den ursprünglichen Gewichten addiert oder separat geladen. Das ursprüngliche Modell bleibt unverändert.
QLoRA fügt Quantisierung hinzu: Das ursprüngliche Modell wird in 4-Bit-Präzision (NF4) geladen, wodurch der VRAM-Bedarf um das Vierfache reduziert wird. Die LoRA-Adapter werden in 16-Bit trainiert, sodass der Gradient in höherer Präzision berechnet wird. Das resultierende Modell ist in der quantisierten Version etwas langsamer bei der Inferenz, aber in vielen Aufgaben ist der Qualitätsunterschied zum vollständigen Fine-Tuning marginal.
Die Grenze zwischen LoRA und QLoRA ist einfach: Wenn VRAM der limitierende Faktor ist, beginnen Sie mit QLoRA.
Wie viel VRAM Sie wirklich benötigen
#| Ansatz | Modell 7B | Modell 13B | Modell 70B |
|---|---|---|---|
| Vollständiges Fine-Tuning | über 40 GB | über 80 GB | außerhalb der Reichweite einer GPU |
| LoRA (bf16) | 18-24 GB | 32-40 GB | 80+ GB (A100 ×2) |
| QLoRA (4-bit NF4) | 8-12 GB | 14-18 GB | 48-56 GB (A100 ×1) |
| Typische Consumer-GPU | RTX 3090/4090 (24 GB) | RTX 4090 oder A6000 | ohne Cloud nicht verfügbar |
Die Zahlen gehen von einer Batch-Größe von 1-4 mit Gradient Checkpointing aus. Zum Vergleich: Eine RTX 4090 mit 24 GB VRAM unterstützt QLoRA für Modelle bis 13B problemlos, LoRA für 7B ohne Quantisierung und vollständiges Fine-Tuning für 7B nur mit aggressivem Gradient Checkpointing und kleiner Batch-Größe, was das Training verlängert.
Ein separates Thema ist das Self-Hosting eines fertigen Adapters. Nach dem Training ist ein LoRA-Adapter nur ein paar Megabyte groß und wird auf das Basismodell aufgesetzt. Für die Inferenz allein reicht so viel VRAM, wie das Basismodell benötigt, ohne Trainings-Overhead.
Trainingsdaten: Qualität vor Quantität
#Der häufigste Fehler ist das Sammeln von tausend beliebigen Beispielen statt dreihundert präzisen. Einige bewährte Prinzipien:
Mindestschwellen. Unter 200 Eingabe-Ausgabe-Paaren führt Fine-Tuning selten zu stabilen Ergebnissen. Ein Bereich von 300-800 qualitativ hochwertigen Beispielen reicht für enge Aufgaben (Klassifikation, Extraktion, Generierung in einem bestimmten Template). Für breitere Verhaltensänderungen: ab 1000 aufwärts.
Hold-out von Anfang an. Reservieren Sie 10-20% der Daten als Testset, noch bevor das Training beginnt. Verwenden Sie diese Paare niemals für das Training oder die Auswahl von Hyperparametern. Dies ist die einzige vertrauenswürdige Metrik für die Bereitstellungsentscheidung.
Konsistenz wichtiger als Vielfalt. Wenn Sie ein Modell für die Generierung von Berichten in einem bestimmten Format trainieren, sollte jedes Beispiel diesem Format entsprechen. Ein paar Ausnahmen in den Trainingsdaten können das Modell „lehren“, dass das Format optional ist.
Personenbezogene Daten. Wenn die Trainingspaare PII enthalten, gelten RODO und wahrscheinlich eine DPIA. Nach dem Training ist das Entfernen spezifischer Daten aus den Gewichten technisch schwierig, was die Umsetzung des Rechts auf Vergessenwerden erschwert – anders als bei RAG. Wir empfehlen Anonymisierung vor dem Training oder eine Architektur, bei der die Trainingsdaten Ihre Infrastruktur nicht verlassen.
Workflow: Von Daten zum bereitgestellten Adapter
#Nachfolgend das Muster, das wir bei Cashcrown für Produktionsimplementierungen verwenden.
1. Baseline-Evaluierung. Bevor Sie mit dem Training beginnen, messen Sie, wie das Basismodell mit Ihrer Aufgabe auf dem Hold-out-Datensatz zurechtkommt. Dies ist der Referenzpunkt, ohne den Sie nicht wissen, ob Fine-Tuning etwas verbessert hat.
2. Datenaufbereitung. Einheitliches Format (z. B. Systemanweisung + Eingabe + Ausgabe im Alpaca- oder ChatML-Format), Anonymisierung von PII, Überprüfung der Konsistenz der Labels durch mindestens zwei Personen.
3. Training von LoRA oder QLoRA. Beliebter Stack: transformers + peft + bitsandbytes (für QLoRA) + trl (Trainer). Wichtige Hyperparameter: Rang r (beginnen Sie mit 16), alpha (normalerweise 2×r), Learning Rate (1e-4 bis 3e-4), Anzahl der Epochen (3-5 für kleine Datensätze). Loggen Sie jeden Lauf mit Datum, Basismodell und Daten-Checksum.
4. Evaluierung auf Hold-out. Für Klassifikation: F1 pro Klasse, Confusion Matrix. Für Generierung: ROUGE-L, BERTScore und, wenn möglich, menschliche Bewertung einer Stichprobe von 50-100 Beispielen. Vergleichen Sie mit der Baseline aus Schritt 1.
5. Menschliche Entscheidung. Dies ist kein automatischer Schritt. Jemand mit Produktverantwortung prüft die Ergebnisse und entscheidet, ob der Adapter bereitgestellt wird. Bei Hochrisikosystemen (AI Act, Anhang III) erfordert dieser Schritt Dokumentation.
6. Bereitstellung des Adapters. Ein LoRA-Adapter kann über Ollama (GGUF + Adapter), vLLM (native PEFT) oder als separater Container mit Basismodell und geladenem Adapter bereitgestellt werden. Nach der Bereitstellung den Drift überwachen. Wenn sich die Verteilung der Anfragen im Vergleich zu den Trainingsdaten signifikant ändert, sind die Metriken auf dem Hold-out nicht mehr aussagekräftig.
Realistische Kostenspannen und Zeitaufwand
#TCO von Fine-Tuning umfasst mehr als nur GPU-Zeit.
| Kostenposition | Spanne (Projekt 7B, ~500 Paare) | Anmerkungen |
|---|---|---|
| Datenaufbereitung | 15-40 h Ingenieursarbeit | Qualitätsprüfung, Anonymisierung von PII |
| QLoRA-Training | 1-4 h GPU (RTX 4090 lokal) oder 5-20 USD in der Cloud | abhängig von Sequenzlänge und Anzahl der Epochen |
| Evaluierung und Iterationen | 10-25 h | 2-4 Runden Hyperparameter, menschliche Bewertung |
| Bereitstellung und Monitoring | 5-15 h | CI für Adapter, Alert-Schwellen für Metriken |
| Wartung (quartalsweise) | 5-10 h | Retraining nach Drift, neue Daten |
Eine vollständige Bereitstellung von Grund auf dauert selten weniger als 3-4 Wochen. Projekte mit sauberen, fertigen Daten können in 2 Wochen abgeschlossen werden. Projekte, die eine vollständige Datenaufbereitung von Grund auf erfordern, überschreiten 6 Wochen.
Vergleichen Sie dies mit der Migration von API zu eigenem Modell: Die Berechnung der Wirtschaftlichkeitsschwelle ist ähnlich und sollte durchgeführt werden, bevor Sie Ressourcen einsetzen.
Was Fine-Tuning nicht löst
#Fine-Tuning ändert wie sich das Modell verhält, nicht was das Modell weiß. Dieser Unterschied aus dem Artikel wann Fine-Tuning sinnvoll ist ist im Kontext von LoRA und QLoRA erwähnenswert.
Ein Adapter, der auf Beispielen aus dem Jahr 2024 trainiert wurde, kennt keine Vorschriften aus dem Jahr 2026. Ein Modell nach dem Fine-Tuning halluziniert weiterhin Fakten, die nicht in den Gewichten enthalten sind. Dies ist eine Aufgabe für RAG, nicht für einen Adapter. Die besten Produktionsarchitekturen, die wir sehen, kombinieren leichtes Fine-Tuning (Stil, Format) mit RAG (aktuelle Fakten bei jedem Aufruf). Details zu diesem Muster beschreibt der Artikel RAG oder Fine-Tuning.
Fine-Tuning ist auch kein Sicherheitsmechanismus. Ein Adapter ersetzt keine Guardrails, eliminiert keine Prompt-Injection und begrenzt das Modell nicht zuverlässig auf eine bestimmte Domäne. Sicherheit wird schichtweise aufgebaut, außerhalb der Modellgewichte. Mehr zu Hardware und lokaler Umgebung im Artikel lokale LLM: welche Hardware und GPU.
FAQ
#Was ist der praktische Unterschied zwischen LoRA und QLoRA?
#LoRA trainiert kleine Adapter-Matrizen, während das Basismodell in voller Präzision (bf16 oder fp16) erhalten bleibt. QLoRA quantisiert zusätzlich das Basismodell auf 4-Bit NF4 vor dem Training, was den VRAM-Bedarf um weitere 50-60% reduziert. Die Qualität des resultierenden Adapters ist für die meisten Klassifikations- und Generierungsaufgaben ähnlich; Unterschiede zeigen sich bei sehr langen Sequenzen oder hoher numerischer Präzision.
Wie viele Trainingsbeispiele benötige ich für LoRA?
#Für eine enge Aufgabe (Klassifikation, Extraktion, Generierung in einem festen Template) ist ein realistisches Minimum 300-500 qualitativ hochwertige Paare mit einem Hold-out von 10-20%. Unter 200 Paaren ist das Risiko von instabilem Training oder Overfitting hoch. Für breitere Verhaltensänderungen des Modells (Tonänderung, Umgang mit mehreren Intentionen) benötigen Sie ab 1000 Paaren aufwärts. Die Qualität der Labels ist wichtiger als die reine Anzahl.
Kann ich QLoRA auf einem normalen Firmenlaptop ausführen?
#Auf einem Laptop ohne dedizierte GPU: nein. QLoRA für ein 7B-Modell erfordert eine Grafikkarte mit mindestens 12 GB VRAM (z. B. RTX 3080/3090/4080/4090) oder Zugang zu einer Cloud-Instanz. Auf einem Laptop mit integrierter Grafik ist das Training technisch auf der CPU möglich, dauert aber mehrere Tage statt Stunden und ist meist unpraktisch. Eine Alternative ist die Cloud: RunPod, Lambda Labs, Google Colab Pro.
Wie stelle ich einen LoRA-Adapter in Produktion bereit?
#Ein LoRA-Adapter ist eine Datei von einigen Megabyte (Satz von Matrizen), die auf das Basismodell aufgesetzt wird. In der Praxis: Konvertieren Sie ihn in das GGUF-Format mit eingebettetem Adapter (llama.cpp + --lora) oder verwenden Sie vLLM mit nativer PEFT-Unterstützung. Das Basismodell laden Sie einmal, den Adapter können Sie in einigen Frameworks ohne Neustart austauschen. Versionierung sowohl des Adapters als auch des Basismodells, auf dem er trainiert wurde, ist notwendig – Inkompatibilitäten führen zu schwer debuggbaren Fehlern.
Wann macht Fine-Tuning mit LoRA keinen Sinn?
#Wenn das Problem der Zugang zu aktuellen Fakten ist – das ist eine Aufgabe für RAG, nicht für Fine-Tuning. Wenn weniger als 200 Trainingspaare vorhanden sind oder deren Qualität gering ist. Wenn Sie die Wissensbasis häufiger als einmal pro Quartal aktualisieren, da jede Änderung ein Retraining erfordern würde. Wenn Sie keine Ressourcen für Evaluierung und Wartung weiterer Adapter-Versionen haben. In diesen Fällen sind Modellauswahl für KI und RAG ein günstigerer und schnellerer Start.