Firmowy GPT: asystent AI na Waszej bazie wiedzy

Q: Czy nasze dane trafią do chmury?

Zależy od wybranej architektury. Przy modelu lokalnym ([self-hosting](/pl/wiedza/slownikself-hosting)) cały stos działa na Waszej infrastrukturze i żaden tekst nie opuszcza sieci firmowej. Przy modelu w chmurze maskujemy [PII](/pl/wiedza/slownikpii) przed wysłaniem zapytania. Wybór zależy od wrażliwości danych i wymagań [RODO](/pl/wiedza/slownikrodo) — omawiamy to na etapie pilotażu.

Pipeline RAG: odpowiedź oparta na Waszych źródłach, z cytatem — nie „z pamięci” modelu.

Dział obsługi klienta w firmie produkującej oprogramowanie spędza codziennie kilka godzin na odpowiadaniu na te same pytania: jak zresetować hasło, jakie są warunki umowy, kiedy faktura jest wystawiana. Wiedza jest, dokumenty są, ale każdy konsultant szuka odpowiedzi osobno — w Confluence, Notion, starych wątkach e-mail. To nie jest problem braku wiedzy. To problem dostępu do wiedzy w odpowiednim momencie. Firmowy asystent AI na bazie dokumentów rozwiązuje dokładnie to.

Czym różni się firmowy GPT od zwykłego chatbota#

„Chatbot” i „asystent RAG” to dwie różne architektury, które warto odróżniać zanim się zdecyduje na technologię:

Cecha	Zwykły chatbot / fine-tuning	Asystent RAG na bazie wiedzy
Źródło odpowiedzi	Wiedza zakodowana w wagach modelu	Wasze dokumenty, indeksowane na żywo
Aktualność	Wymaga ponownego trenowania po zmianach	Wystarczy ponowna indeksacja bazy
Ryzyko halucynacji	Wysokie (model interpoluje to, czego nie wie)	Niskie przy dobrej konfiguracji guardrails
Cytowanie źródeł	Brak	Fragment dokumentu + link / numer strony
Koszt aktualizacji wiedzy	Wysoki (fine-tuning za każdą zmianą)	Niski (reindeks nowych plików)
Kontrola zakresu	Trudna	Wbudowana przez konstrukcję

Praktyczna zasada: jeśli Wasza wiedza zmienia się częściej niż raz na kwartał (a w większości firm zmienia się co tydzień), RAG jest właściwą architekturą. Fine-tuning zostawcie na modele specjalizujące się w stylu i formacie, nie w aktualnych faktach.

Gotowa platforma czy własne wdrożenie?#

Zanim porównacie architektury, warto porównać alternatywy zakupowe. Poważny kupujący pyta: „po co budować, skoro Microsoft 365 Copilot, ChatGPT Enterprise czy Glean już indeksują nasz SharePoint i Confluence?”. Uczciwa odpowiedź: dla generycznego Q&A na danych w jednym ekosystemie gotowa platforma jest szybka i często wystarcza. Własne wdrożenie wygrywa, gdy pojawia się choć jeden z tych wymogów:

Niestandardowe źródła — baza produktów (CSV/JSON), transkrypcje rozmów, wątki e-mail, dane spoza jednego ekosystemu.
Self-hosting i rezydencja danych — cały stos (self-hosting) na Waszej infrastrukturze, dane nie opuszczają kraju.
Własne guardrails i zakres — twarda kontrola, na co asystent odpowiada, oraz audytowalny ślad pod AI Act i RODO.
Brak vendor lock-inu i koszt przy skali — gotowe rozliczają per-seat/per-wiadomość; własne na własnym routerze daje przewidywalny koszt.

Najczęściej najlepsza droga jest hybrydowa: gotowa platforma tam, gdzie wystarcza, własny asystent dla procesu, w którym liczą się Wasze dane i integracja. Pełne kryteria i tabela decyzyjna: własny asystent czy gotowy oraz porównanie build vs buy; co wybrać dla konkretnego przypadku podpowie dobór stacku.

Jak działa RAG krok po kroku#

Żeby dobrze zaprojektować system, warto rozumieć każdy krok w potoku przetwarzania:

Indeksacja (raz, potem przyrostowo): Każdy dokument jest dzielony na fragmenty (chunki). Każdy fragment przechodzi przez model embeddingów — u nas BGE-M3 działający lokalnie — i zamieniany na wektor liczbowy. Wektory trafiają do bazy wektorowej. Żaden tekst nie opuszcza Waszej infrastruktury w tej fazie.

Zapytanie (w czasie rzeczywistym): Użytkownik pisze pytanie. Pytanie jest wektoryzowane tym samym modelem. Wyszukiwanie semantyczne wyciąga 3–8 fragmentów dokumentów o największym podobieństwie do pytania. Opcjonalnie stosujemy reranking, który ponownie sortuje fragmenty pod kątem trafności przed podaniem ich modelowi.

Generacja odpowiedzi: Model językowy (przez router LLM) dostaje pytanie plus wyciągnięte fragmenty w kontekście. Odpowiedź formułowana jest wyłącznie na ich podstawie. Jeśli fragmenty nie zawierają odpowiedzi, model mówi wprost: „nie mam tej informacji w bazie” i proponuje kontakt z człowiekiem.

Ten ostatni punkt to różnica między asystentem, któremu można ufać, a takim, który zmyśla uprzejmie. Guardrails wymuszają przyznanie się do braku wiedzy zamiast interpolowania odpowiedzi.

Jaką wiedzę można zaindeksować#

Prawie każdy ustrukturyzowany format działa dobrze. Oto co obsługujemy w typowym wdrożeniu:

Dokumenty Word / PDF — procedury, regulaminy, specyfikacje produktów, oferty handlowe
FAQ i help center — treści eksportowane z Zendesk, Intercom, Notion, Confluence
Baza danych produktów — opis, parametry, ceny widełkowe, warunki dostaw (JSON / CSV)
E-maile i wątki — historia obsługi klienta jako baza przypadków (z anonimizacją PII)
Transkrypcje rozmów — szczególnie wartościowe przy obsłudze posprzedażowej

Czego unikamy na starcie: dokumentów z dużą ilością tabel obrazkowych (skanowane PDF bez warstwy tekstowej), bazy ze sprzecznymi wersjami tych samych informacji bez oznaczenia „ważna od / wycofana”, i repozytoriów w całości — indeksujemy dokumentację, nie kod.

Dobra zasada: zanim zaindeksujecie tysiąc plików, zaindeksujcie sto tych najważniejszych i zmierzcie trafność odpowiedzi. Jakość bazy wiedzy wyznacza sufit jakości asystenta, nie odwrotnie.

Warstwa bezpieczeństwa: to nie opcja#

Firmowy asystent operuje na danych, które mają wartość i których wyciek kosztuje. Dlatego bezpieczeństwo projektujemy od pierwszej linijki, nie dodajemy po fakcie.

PII maskowane przed chmurą. Jeśli dokumenty zawierają dane osobowe, maskujemy je przed przesłaniem do modelu w chmurze. Alternatywnie — cały stos (embedding + model) działa lokalnie na Waszej infrastrukturze (self-hosting).

Guardrails pilnujące zakresu. System odpowiada tylko na pytania, które mają pokrycie w bazie. Pytania o tematy poza zakresem (np. prośba o napisanie kodu albo opinia polityczna) są odrzucane z komunikatem i opcją przełączenia na człowieka.

Injection i prompt attack. Guardrails filtrują wejście użytkownika zanim trafi do modelu — blokują próby wyciągnięcia sekretów z kontekstu, wstrzyknięcia instrukcji i ataków na prompt.

Human-handoff dla spraw poza kompetencją. Asystent, który nie wie, nie zgaduje — przekazuje rozmowę do człowieka z pełnym kontekstem wątku. Bez tego każdy błąd modelu staje się problemem klienta. Więcej o tym wzorcu w artykule o bezpieczeństwie agentów AI.

Logi i rozliczalność. Każde zapytanie i każda odpowiedź są logowane bez PII — nie po to, żeby szpiegować użytkowników, ale żeby mieć ślad do audytu, pomiaru jakości i zgodności z RODO. Ten ślad to fundament rozliczalności wymaganej przez RODO, a formalne rejestry logów stają się twardym wymogiem AI Act, gdy system wpada w wyższe ryzyko (profilowanie, scoring, decyzje o ludziach) — pełną klasyfikację opisujemy w artykule o AI Act i RODO.

Gdzie firmowy asystent daje największą dźwignię#

Trzy typy wdrożeń, które spotykamy najczęściej i które najszybciej zwracają inwestycję:

Obsługa klienta i helpdesk. W naszych wdrożeniach asystent przejmuje zwykle 40–70% powtarzalnych pytań bez człowieka — realny udział zależy od jakości bazy i profilu zgłoszeń. Konsultant widzi przełączone rozmowy z pełnym kontekstem — nie zaczyna od „o co chodzi?”. Mierzalny wynik: czas do pierwszej odpowiedzi, procent zgłoszeń zamkniętych bez eskalacji.

Wewnętrzna baza wiedzy dla pracowników. Onboarding nowego pracownika skraca się o kilkanaście–kilkadziesiąt godzin, bo pytania do starszych kolegów zastępuje asystent oparty na dokumentach działu. Mierzalny wynik: liczba zapytań do zespołu wewnętrznego, czas onboardingu.

Asystent sprzedażowy przed ofertą. Handlowiec albo klient na stronie może zapytać o dostępność, parametry i warunki bez czekania na odpowiedź e-mailową. Mierzalny wynik: czas od zapytania do oferty, wskaźnik konwersji.

W każdym z tych przypadków punkt startowy jest ten sam: wąska, dobrze opisana domena wiedzy, zmierzony baseline (ile czasu zajmuje dziś?), pilotaż na realnym ruchu. Sprawdź ocenę gotowości Waszej firmy zanim zaplanujecie zakres.

Czas i koszt: czego się spodziewać#

Firmowy asystent to projekt inżynierski, nie jednorazowa konfiguracja platformy. Uczciwy obraz wdrożenia:

Pilotaż (jedna domena wiedzy): zwykle kilka tygodni od przygotowania dokumentów do działającego systemu z mierzonym wynikiem. Szczegółowe widełki zależą od zakresu — policz to w kalkulatorze ROI.

Co zajmuje czas? Nie model, nie infrastruktura. Przygotowanie i porządkowanie bazy wiedzy (sprzeczne wersje, duplikaty, brakujące metadane) to zwykle 30–50% całkowitego wysiłku pilotażu. Dlatego zaczynamy od audytu dokumentów, nie od konfiguracji modelu.

Koszt utrzymania. Indeksacja nowych dokumentów to operacja niskokosztowa. Koszt zmiennym jest liczba zapytań do modelu w chmurze — możesz go z góry oszacować w kalkulatorze inference. Przy dużym ruchu lub wrażliwych danych często optymalniejszy jest model lokalny.

Kiedy się zwraca (i kiedy nie). Zwrot napędza jedna prosta zależność: wolumen powtarzalnych zgłoszeń × koszt godziny konsultanta, minus koszt inferencji. Gdy asystent przejmuje 40–70% powtarzalnych pytań (jak wyżej) z bazy liczonej w setkach zgłoszeń miesięcznie, projekt zwykle zwraca się w kilka miesięcy — bo każda godzina, której nie poświęca konsultant, jest realną oszczędnością, a koszt zmienny per zapytanie jest niewielki. NIE zwraca się tam, gdzie wolumen jest niski (kilkadziesiąt zgłoszeń/mies.), pytania są za każdym razem inne, albo baza wiedzy jest rozproszona i sprzeczna — wtedy najpierw policz to na własnych liczbach w kalkulatorze ROI.

Gdzie NIE obiecujemy: nie podajemy stałych cen ani stałych terminów przed audytem zakresu. Skala wdrożenia (jedna domena vs. całe przedsiębiorstwo) zmienia liczby o rząd wielkości. Punkt wejścia to zawsze pilot o stałym koszcie — napisz do nas z opisem procesu.

Wypróbuj na żywo#

Opisz Waszą bazę wiedzy i główny przypadek użycia, a model pokaże jak zaprojektować potok indeksacji i zakres guardrails — jako punkt wyjścia, nie gotowy projekt (playground: PII maskowane, zero retencji):

▶Zaprojektuj potok RAG dla Twojej bazy wiedzysandbox · reasoning

FAQ#

Czym różni się firmowy GPT od ChatGPT?#

ChatGPT odpowiada z wiedzy ogólnej zakodowanej w modelu — nie wie nic o Waszych dokumentach ani procedurach. Firmowy asystent RAG odpowiada wyłącznie z Waszej bazy wiedzy: każda odpowiedź ma źródło w konkretnym fragmencie dokumentu. Poza zakresem bazy mówi wprost „nie mam tej informacji”, a nie interpoluje.

Czy nasze dane trafią do chmury?#

Zależy od wybranej architektury. Przy modelu lokalnym (self-hosting) cały stos działa na Waszej infrastrukturze i żaden tekst nie opuszcza sieci firmowej. Przy modelu w chmurze maskujemy PII przed wysłaniem zapytania. Wybór zależy od wrażliwości danych i wymagań RODO — omawiamy to na etapie pilotażu.

Jak duża musi być baza wiedzy?#

Nie ma minimalnego progu. Pilotaże zaczynamy od kilkudziesięciu dobrze przygotowanych dokumentów. Ważniejsza niż ilość jest jakość i spójność: jedna, dobrze opisana domena wiedzy bez sprzecznych wersji daje lepsze wyniki niż tysiąc nieuporządkowanych plików. Jakość bazy wyznacza sufit jakości asystenta.

Czy asystent może się mylić?#

Tak. Każdy system RAG ma margines błędu, szczególnie przy pytaniach granicznych i dokumentach z niejednoznaczną treścią. Dlatego guardrails wymuszają odpowiedź „nie wiem” zamiast zgadywania, logujemy każdą odpowiedź do audytu jakości, a wdrożenie na ścieżkach krytycznych zawsze zawiera human-handoff. Asystent ma odciążać człowieka, nie zastępować go tam, gdzie błąd kosztuje.

Ile czasu zajmuje wdrożenie?#

Pilotaż jednej domeny wiedzy to zwykle kwestia tygodni od dostarczenia dokumentów do działającego systemu z pierwszymi pomiarami. Największa zmienna to przygotowanie bazy wiedzy po Waszej stronie. Pełna skala i harmonogram wymagają audytu zakresu — skontaktuj się z nami, żeby zacząć od konkretnej liczby.

Pipeline RAG: odpowiedź oparta na Waszych źródłach, z cytatem — nie „z pamięci” modelu.