RAG czy fine-tuning: jak dać modelowi wiedzę firmy

Pipeline RAG: odpowiedź oparta na Waszych źródłach, z cytatem — nie „z pamięci” modelu.

To jedno z pierwszych pytań przy wdrożeniu AI w firmie: jak sprawić, by model odpowiadał na podstawie naszej wiedzy, a nie ogólnej. Są dwie drogi — i najczęściej myli się je albo wybiera tę droższą bez potrzeby.

RAG: wyszukaj, potem odpowiedz#

RAG (retrieval-augmented generation) najpierw wyszukuje trafne fragmenty z Waszej bazy, a potem każe modelowi odpowiedzieć tylko na ich podstawie, z cytatami. Wiedza żyje poza modelem — w bazie wektorowej — więc:

aktualizujesz dane bez przetrenowywania modelu,
odpowiedzi mają cytowalne źródła, co ogranicza halucynacje, gdy retrieval jest trafny i ustawiony jest próg pewności,
przy słabym dopasowaniu system eskaluje do człowieka zamiast zmyślać.

Embeddingi liczymy lokalnie modelem BGE-M3, więc treść do osadzenia nie opuszcza Waszej infrastruktury.

Fine-tuning: zmień zachowanie modelu#

Fine-tuning doszkala model na Waszych przykładach i zmienia jego wagi — utrwala styl, ton, format wyjścia. To potężne, gdy chodzi o spójny „głos” albo bardzo specyficzny format, którego prompt nie wymusza. Ale jest kosztowne i nie nadaje się do świeżych faktów: nowa wiedza wymagałaby kolejnego treningu.

Kiedy które#

Kryterium	RAG	Fine-tuning
Świeże/aktualne dane	tak	nie
Koszt wdrożenia	niski	wysoki
Aktualizacja bez retreningu	tak	nie
Kontrola stylu/zachowania	częściowa	pełna
Ryzyko halucynacji	niskie (z progiem pewności)	średnie
Cytowalne źródła	tak	nie
Czas do pierwszych wyników	tygodnie	miesiące
Wymagana ilość danych	mało (dokumenty)	dużo (pary uczące)

Reguła kciuka: jeśli problemem jest dostęp do wiedzy (klienci nie znajdują odpowiedzi) — RAG. Jeśli problemem jest trwały styl/format — fine-tuning. Często optymalna jest hybryda: RAG wnosi fakty, lekki fine-tuning utrwala głos. Przejdź to konkretnie w drzewie decyzyjnym.

Jeśli skłaniasz się ku fine-tuningowi, zobacz kiedy fine-tuning naprawdę ma sens — a kiedy jest kosztownym błędem.

Najczęstszy błąd: fine-tuning na dokumentach#

Najczęstsza pomyłka brzmi: „chcemy, żeby model znał nasze dokumenty”. To nie jest zadanie dla fine-tuningu — fine-tuning zmienia styl i zachowanie, nie jest pamięcią faktograficzną, więc model nadal może halucynować fakty, tylko w Waszym stylu. Wiedza z dokumentów to zadanie RAG z cytowaniem źródeł.

Po drugie — rzędy wielkości: pilot RAG uruchamiasz w tygodnie, fine-tuning to miesiące pracy plus GPU, dane treningowe (minimum kilkaset dobrych par wejście-wyjście) i utrzymanie kolejnych wersji. Pełną listę przypadków, w których fine-tuning jest uzasadniony lub błędny, rozkładamy w artykule Kiedy fine-tuning ma sens.

Co budujemy z RAG#

RAG to fundament Concierge RAG — asystenta na Waszej wiedzy z cytatami, wielojęzycznością i eskalacją do człowieka. Ten sam wzorzec napędza wielojęzyczny help desk i inteligencję dokumentów.

Wypróbuj na żywo#

Wklej własny tekst i zadaj pytanie — zobaczysz RAG z cytatami na żywo (ten sam sandbox co w playground: zero retencji, PII maskowane).

▶Streść fragment o RAGsandbox · summarize

FAQ#

RAG czy fine-tuning — co wybrać na start?#

Najczęściej RAG. Jest tańszy, aktualizowalny bez retreningu i daje cytowalne źródła. Fine-tuning ma sens, gdy potrzebujesz trwałej zmiany stylu lub formatu, a nie świeżych faktów. Wiele wdrożeń zaczyna od RAG i dokłada lekki fine-tuning dopiero, gdy zależy na spójnym „głosie”.

Czy RAG wymaga wysyłania danych do chmury?#

Nie musi. Embeddingi i wyszukiwanie trzymamy lokalnie (BGE-M3 + Qdrant), a do chmury trafia tylko zamaskowany prompt — bez PII. Dane wrażliwe i całe wdrożenia on-prem nie wychodzą poza Waszą infrastrukturę.

Czy fine-tuning zmniejsza halucynacje?#

Nie tak jak RAG. Fine-tuning utrwala styl, ale model nadal może „zmyślać”, gdy nie zna faktu. To RAG z cytowaniem i progiem pewności (eskalacja do człowieka przy słabym dopasowaniu) jest główną obroną przed halucynacją.

Pipeline RAG: odpowiedź oparta na Waszych źródłach, z cytatem — nie „z pamięci” modelu.