To jedno z pierwszych pytań przy wdrożeniu AI w firmie: jak sprawić, by model odpowiadał na podstawie naszej wiedzy, a nie ogólnej. Są dwie drogi — i najczęściej myli się je albo wybiera tę droższą bez potrzeby.
RAG: wyszukaj, potem odpowiedz
#RAG (retrieval-augmented generation) najpierw wyszukuje trafne fragmenty z Waszej bazy, a potem każe modelowi odpowiedzieć tylko na ich podstawie, z cytatami. Wiedza żyje poza modelem — w bazie wektorowej — więc:
- aktualizujesz dane bez przetrenowywania modelu,
- odpowiedzi mają cytowalne źródła (mniej halucynacji),
- przy słabym dopasowaniu system eskaluje do człowieka zamiast zmyślać.
Embeddingi liczymy lokalnie modelem BGE-M3, więc treść do osadzenia nie opuszcza Waszej infrastruktury.
Fine-tuning: zmień zachowanie modelu
#Fine-tuning doszkala model na Waszych przykładach i zmienia jego wagi — utrwala styl, ton, format wyjścia. To potężne, gdy chodzi o spójny „głos" albo bardzo specyficzny format, którego prompt nie wymusza. Ale jest kosztowne i nie nadaje się do świeżych faktów: nowa wiedza wymagałaby kolejnego treningu.
Kiedy które
#| Kryterium | RAG | Fine-tuning |
|---|---|---|
| Świeże/aktualne dane | tak | nie |
| Koszt wdrożenia | niski | wysoki |
| Aktualizacja bez retreningu | tak | nie |
| Kontrola stylu/zachowania | częściowa | pełna |
| Ryzyko halucynacji | niskie | średnie |
| Cytowalne źródła | tak | nie |
Reguła kciuka: jeśli problemem jest dostęp do wiedzy (klienci nie znajdują odpowiedzi) — RAG. Jeśli problemem jest trwały styl/format — fine-tuning. Często optymalna jest hybryda: RAG wnosi fakty, lekki fine-tuning utrwala głos. Przejdź to konkretnie w drzewie decyzyjnym.
Co budujemy z RAG
#RAG to fundament Concierge RAG — asystenta na Waszej wiedzy z cytatami, wielojęzycznością i eskalacją do człowieka. Ten sam wzorzec napędza wielojęzyczny help desk i inteligencję dokumentów.
Wypróbuj na żywo
#Wklej własny tekst i zadaj pytanie — zobaczysz RAG z cytatami na żywo (ten sam sandbox co w playground: zero retencji, PII maskowane).
FAQ
#RAG czy fine-tuning — co wybrać na start?
#Najczęściej RAG. Jest tańszy, aktualizowalny bez retreningu i daje cytowalne źródła. Fine-tuning ma sens, gdy potrzebujesz trwałej zmiany stylu lub formatu, a nie świeżych faktów. Wiele wdrożeń zaczyna od RAG i dokłada lekki fine-tuning dopiero, gdy zależy na spójnym „głosie".
Czy RAG wymaga wysyłania danych do chmury?
#Nie musi. Embeddingi i wyszukiwanie trzymamy lokalnie (BGE-M3 + Qdrant), a do chmury trafia tylko zamaskowany prompt — bez PII. Dane wrażliwe i całe wdrożenia on-prem nie wychodzą poza Waszą infrastrukturę.
Czy fine-tuning zmniejsza halucynacje?
#Nie tak jak RAG. Fine-tuning utrwala styl, ale model nadal może „zmyślać", gdy nie zna faktu. To RAG z cytowaniem i progiem pewności (eskalacja do człowieka przy słabym dopasowaniu) jest główną obroną przed halucynacją.