cashcrown // wiedza
Pojęcia AI bez żargonu: RAG, embeddingi, agenci, RODO i infrastruktura — z definicjami, powiązaniami i wyszukiwaniem. Spójne z naszą architekturą i encjami.
46 pojęć
Model przewidujący kolejne tokeny tekstu, podstawa współczesnych systemów AI.
LLM uczy się statystyki języka z ogromnych korpusów i generuje tekst token po tokenie. Sam w sobie nie zna Twoich danych — wiedzę dziedzinową dokłada się przez RAG lub fine-tuning.
Powiązane:TokenInferencjaRAG (generacja wspomagana wyszukiwaniem)Fine-tuning (dostrajanie)
Najmniejsza jednostka tekstu przetwarzana przez model (część słowa).
Modele liczą koszt i limity w tokenach, nie znakach. ~1 token to średnio 4 znaki tekstu; rozliczenia i okno kontekstu mierzy się właśnie w tokenach.
Maksymalna liczba tokenów, którą model „widzi” naraz (wejście + wyjście).
Gdy rozmowa lub dokumenty przekraczają okno, trzeba je skracać lub wyszukiwać najtrafniejsze fragmenty — to jeden z powodów, dla których stosuje się RAG zamiast wrzucania całej bazy do promptu.
Powiązane:TokenRAG (generacja wspomagana wyszukiwaniem)Prompt
Instrukcja i kontekst podawane modelowi, które sterują odpowiedzią.
Dobry prompt to rola, zasady, kontekst (np. źródła z RAG) i format wyjścia. Wstrzyknięcie złośliwej instrukcji do promptu to prompt injection — bronią przed nim guardraile.
Powiązane:Okno kontekstuGuardraile (barierki)Wyjście strukturalne
Uruchomienie wytrenowanego modelu, by wygenerował odpowiedź.
Inferencja to koszt operacyjny systemu AI — mierzony latencją i przepustowością. Można ją uruchamiać w chmurze lub lokalnie (self-hosting), co decyduje o rezydencji danych.
Powiązane:LatencjaSelf-hosting (lokalny hosting)Duży model językowy (LLM)
Doszkolenie modelu na własnych przykładach, by zmienić jego styl lub zachowanie.
Fine-tuning zmienia wagi modelu i jest kosztowny; do wnoszenia świeżej wiedzy faktograficznej zwykle lepszy jest RAG (tańszy, aktualizowalny bez retreningu). Oba podejścia bywają łączone.
Powiązane:Duży model językowy (LLM)RAG (generacja wspomagana wyszukiwaniem)Inferencja
Najpierw wyszukaj fakty z bazy, potem każ modelowi odpowiedzieć tylko na ich podstawie.
RAG ogranicza halucynacje: model dostaje konkretne źródła i cytuje je. To fundament rzetelnej obsługi klienta — odpowiedź jest ugruntowana, a przy słabym dopasowaniu system eskaluje do człowieka zamiast zmyślać.
Powiązane:Embedding (wektor)Wektorowa baza danychWyszukiwanie hybrydoweHalucynacjaRouter LLM
Tekst zamieniony na listę liczb, gdzie bliskość = podobieństwo znaczeń.
Embeddingi pozwalają wyszukiwać po znaczeniu, nie po słowach kluczowych. Cashcrown liczy je lokalnie modelem BGE-M3 (1024 wymiary), więc treść do osadzenia nie opuszcza infrastruktury.
Powiązane:Wektorowa baza danychWyszukiwanie semantyczneBGE-M3
Baza przechowująca embeddingi i znajdująca najbliższe wektory w milisekundach.
Serce wyszukiwania semantycznego w RAG. Cashcrown używa Qdranta uruchomionego lokalnie jako natywna usługa — wektory i metadane zostają na własnym serwerze.
Powiązane:Embedding (wektor)Wyszukiwanie semantyczneWyszukiwanie hybrydowe
Szukanie po znaczeniu zdania, a nie po dosłownym dopasowaniu słów.
Pytanie i dokumenty zamieniane są na embeddingi i porównywane wektorowo, więc „jak chronić dane” znajdzie tekst o RODO nawet bez wspólnych słów.
Powiązane:Embedding (wektor)Wektorowa baza danychWyszukiwanie hybrydoweFAQ explorer
Połączenie wyszukiwania semantycznego z klasycznym (słowa kluczowe).
Semantyka łapie sens, a wyszukiwanie pełnotekstowe — dokładne nazwy i kody. Łączenie obu (np. wektory + FTS Postgresa) daje trafniejsze wyniki niż każde z osobna.
Powiązane:Wyszukiwanie semantyczneRerankingWektorowa baza danych
Drugi przebieg, który przestawia wyniki wyszukiwania wg trafności.
Po szybkim wyszukaniu kandydatów dokładniejszy model ocenia każdy względem pytania i podnosi najlepsze na górę — poprawia jakość kontekstu trafiającego do LLM.
Powiązane:Wyszukiwanie hybrydoweRAG (generacja wspomagana wyszukiwaniem)
Jedno wejście do modeli: dobiera model do zadania, maskuje PII, pilnuje limitów.
Cały ruch AI w Cashcrown idzie przez router OpenClaw — żaden kod nie woła dostawcy bezpośrednio. Dzięki temu maskowanie PII, fallback modeli i telemetria są egzekwowane w jednym miejscu.
Powiązane:Duży model językowy (LLM)PII (dane osobowe)Wyjście strukturalneObserwowalnośćDobór modelu (routing)Tryb rozumowania (thinking)
Więcej:Atlas modeli →
System AI, który planuje kroki i używa narzędzi, by wykonać zadanie.
Agent nie tylko odpowiada — działa: wyszukuje, woła API, rezerwuje termin. Bezpieczeństwo wymaga barierek i potwierdzeń przy akcjach nieodwracalnych, by działanie nie wymknęło się spod kontroli.
Powiązane:Użycie narzędzi (tool use)Guardraile (barierki)Concierge (asystent)
Zdolność modelu do wywoływania funkcji/API zamiast tylko pisać tekst.
Model dostaje katalog narzędzi z opisem argumentów i decyduje, które wywołać. Akcje nieodwracalne (np. rezerwacja) wymagają serwerowego tokenu potwierdzenia, nie samej deklaracji modelu.
Reguły, które ograniczają, co model może przyjąć na wejściu i wypuścić na wyjściu.
Na wejściu odrzucają prompt injection, na wyjściu kwalifikują obietnice (np. ceny widełkami, terminy z zastrzeżeniem). Barierki sprawiają, że asystent nie obieca rzeczy, których nie powinien.
Powiązane:PromptHalucynacjaAgent AIUżycie narzędzi (tool use)
Pewnie brzmiąca, ale zmyślona odpowiedź modelu.
Modele uzupełniają luki prawdopodobnym tekstem, nawet gdy nie znają faktu. RAG z cytowaniem i progiem pewności (eskalacja do człowieka przy słabym dopasowaniu) to główna obrona.
Powiązane:RAG (generacja wspomagana wyszukiwaniem)Guardraile (barierki)Duży model językowy (LLM)
Wymuszenie, by model zwrócił poprawny JSON zgodny ze schematem.
Bez tego odpowiedź modelu trudno bezpiecznie sparsować. Cashcrown używa promptu opartego o JSON z walidacją schematu i jedną naprawą — to stabilniejsze niż wolne tryby „json_schema” u części dostawców.
Informacje identyfikujące osobę: e-mail, telefon, nazwisko, adres.
Przed wysłaniem czegokolwiek do chmury router maskuje PII tokenami, a po odpowiedzi je przywraca — model w chmurze nigdy nie widzi prawdziwych danych osobowych.
Powiązane:RODO (GDPR)Router LLMRezydencja danych
Unijne prawo ochrony danych osobowych: zgoda, minimalizacja, prawo do usunięcia.
W praktyce: zgoda przed śledzeniem, przechowywanie tylko niezbędnego, oraz realne usunięcie danych na żądanie. W Cashcrown te zasady są wbudowane w pipeline, nie doklejone później.
Powiązane:PII (dane osobowe)Rezydencja danychSelf-hosting (lokalny hosting)
Gdzie fizycznie znajdują się i są przetwarzane Twoje dane.
Lokalne embeddingi (BGE-M3) i lokalny Qdrant oznaczają, że wrażliwe treści nie wychodzą poza serwer. Do chmury trafia tylko zamaskowany prompt — to świadomy wybór rezydencji.
Powiązane:Self-hosting (lokalny hosting)PII (dane osobowe)RODO (GDPR)
Uruchamianie modeli i usług na własnej infrastrukturze, nie u dostawcy.
Daje kontrolę nad danymi i kosztami oraz niezależność od jednego dostawcy. Cashcrown hostuje lokalnie embeddingi, wektorową bazę i wyszukiwanie, a do chmury sięga tylko po generację — z maskowaniem.
Wielojęzyczny model embeddingów uruchamiany lokalnie (1024 wymiary).
Zamienia tekst w wielu językach na wektory bez wysyłania go do chmury — fundament prywatnego RAG w Cashcrown.
Powiązane:Embedding (wektor)Wektorowa baza danychSelf-hosting (lokalny hosting)Dobór modelu (routing)
Więcej:BGE-M3 w atlasie modeli →
Metryki, logi i ślady, które pokazują, co system AI naprawdę robi.
Bez pomiaru nie da się rządzić kosztem ani jakością. Cashcrown wystawia metryki (Prometheus), korelowane logi i ślady, więc każde wywołanie modelu jest policzalne i diagnozowalne.
Powiązane:LatencjaRouter LLMInferencja
Czas od pytania do odpowiedzi; niska latencja = płynna interakcja.
Streaming odpowiedzi po tokenie skraca odczuwaną latencję — użytkownik widzi tekst, zanim model skończy. To dlatego asystent „pisze na żywo”.
Powiązane:InferencjaPrzepustowośćObserwowalność
Ile zapytań/tokenów system obsłuży w jednostce czasu.
Razem z latencją opisuje wydajność serwowania modeli. Limity współbieżności i backpressure chronią przepustowość przed przeciążeniem.
Powiązane:LatencjaInferencjaObserwowalność
Asystent AI oparty o RAG, który odpowiada z cytatami i eskaluje do człowieka.
Concierge Cashcrown łączy RAG, guardraile, wielojęzyczność i strumieniowanie — odpowiada na żywo z przypisami, a gdy nie wie, łączy z człowiekiem zamiast zmyślać.
Powiązane:RAG (generacja wspomagana wyszukiwaniem)Agent AIGuardraile (barierki)Latencja
Przeszukiwanie pytań i odpowiedzi po znaczeniu, nie tylko po słowach.
Semantyczne FAQ podpowiada najtrafniejszą odpowiedź, nawet gdy pytanie sformułowano inaczej niż w bazie — wykorzystuje te same embeddingi co RAG.
Powiązane:Wyszukiwanie semantyczneRAG (generacja wspomagana wyszukiwaniem)Concierge (asystent)
Tryb, w którym model najpierw rozumuje wewnętrznie, zanim sformułuje odpowiedź.
Modele „myślące” prowadzą ukryte rozumowanie — świetne przy trudnych decyzjach, ale wolniejsze i droższe. Włączone „na siłę” do zwykłego czatu potrafią zwrócić pustą odpowiedź, dlatego włączamy je tylko dla zadań rozumowania (parametr think).
Powiązane:Duży model językowy (LLM)InferencjaDobór modelu (routing)Latencja
Wybór właściwego modelu do zadania — najtańszego, który je udźwignie.
Nie ma jednego „najlepszego” modelu; router OpenClaw dobiera go do zadania na podstawie mierzonej przepustowości, czasu startu (TTFT) i okna kontekstu — nie nazwy. Pełną flotę z mierzonymi parametrami i dobór wg zadania pokazuje atlas modeli.
Powiązane:Router LLMPrzepustowośćTTFT (czas do pierwszego tokenu)Tryb rozumowania (thinking)Okno kontekstu
Czas od wysłania pytania do pojawienia się pierwszego tokenu odpowiedzi.
TTFT decyduje o tym, jak „szybko” model wydaje się odpowiadać — przy streamingu użytkownik widzi tekst po tym czasie. Mierzymy go na żywo dla każdego modelu, bo nazwy bywają mylące („flash” potrafi być wolniejszy od dużego modelu).
Powiązane:LatencjaPrzepustowośćDobór modelu (routing)
Więcej:Atlas modeli →
Unijne rozporządzenie, które klasyfikuje systemy AI według ryzyka i nakłada obowiązki.
AI Act dzieli systemy na poziomy ryzyka. Dla ograniczonego ryzyka (chatboty, asystenci) kluczowa jest transparentność — użytkownik musi wiedzieć, że rozmawia z AI. Dla wysokiego ryzyka dochodzą nadzór ludzki, dokumentacja techniczna, rejestry logów i ocena zgodności. Egzekwowany od sierpnia 2026.
Powiązane:RODO (GDPR)DPIA (ocena skutków dla ochrony danych)Nadzór ludzki (human-in-the-loop)Guardraile (barierki)
Ocena ryzyka wymagana, gdy przetwarzanie może powodować wysokie ryzyko dla praw osób.
DPIA wynika z RODO i jest wymagana typowo przy profilowaniu na dużą skalę, danych wrażliwych albo automatycznych decyzjach o ludziach. Asystent, który tylko odpowiada z bazy wiedzy, zwykle jej nie wymaga; system, który profiluje lub decyduje — prawdopodobnie tak.
Powiązane:RODO (GDPR)AI ActPII (dane osobowe)
Wymóg, by człowiek nadzorował i potwierdzał istotne lub nieodwracalne decyzje AI.
Nadzór ludzki to filar zgodności i bezpieczeństwa: akcje nieodwracalne przechodzą przez potwierdzenie (human-gate), a system działa autonomicznie tylko w wąskim, opisanym zakresie. RODO daje też prawo do niebycia przedmiotem wyłącznie zautomatyzowanej decyzji.
Powiązane:Agent AIGuardraile (barierki)AI Act
Model, który czyta dokument lub wiadomość i przypisuje ją do jednej z kategorii.
Klasyfikacja to jedno z zadań o najszybszym ROI: dekretacja faktur, kategoryzacja zgłoszeń, ocena leadów. Wynik jest mierzalny z definicji (procent poprawnych przypisań), a proces zwykle już istnieje ręcznie — dlatego to dobry kandydat na pierwsze wdrożenie.
Powiązane:Ekstrakcja danychWyjście strukturalneDuży model językowy (LLM)
Wyciąganie konkretnych pól z tekstu — numer faktury, kwota, NIP, data, dane z CV.
Ekstrakcja zamienia nieustrukturyzowany tekst w pola gotowe do systemu. Razem z klasyfikacją rozwiązuje dużą część pierwszych pomysłów na AI w polskich firmach. Najlepiej działa z wymuszonym schematem ([structured output](/pl/wiedza/slownik#structured-output)), który gwarantuje poprawny format.
Powiązane:KlasyfikatorWyjście strukturalneRAG (generacja wspomagana wyszukiwaniem)
Płynne przekazanie rozmowy od asystenta AI do człowieka, gdy sprawa tego wymaga.
Handoff to dowód dojrzałości systemu, nie porażki: przy niskiej pewności, frustracji klienta albo sprawie wymagającej decyzji asystent eskaluje do człowieka zamiast zgadywać. To także wymóg transparentności z AI Act — użytkownik zawsze może rozmawiać z człowiekiem.
Powiązane:Nadzór ludzki (human-in-the-loop)Concierge (asystent)HalucynacjaAI Act
Wdrożenie jednego, wąskiego procesu o stałym koszcie, by zmierzyć wartość przed skalą.
Pilotaż obniża ryzyko po obu stronach: zamiast wielkiego kontraktu pokazujemy działający system na jednym mierzalnym procesie. Jeśli dowiezie liczby (odzyskane godziny, % spraw zamkniętych bez człowieka), poszerzamy zakres; jeśli nie — kosztował niewiele.
Powiązane:KlasyfikatorObserwowalnośćRAG (generacja wspomagana wyszukiwaniem)
Automatyczna ocena i priorytetyzacja zapytań wg dopasowania do profilu klienta (ICP).
Scoring to klasyfikacja zastosowana do sprzedaży: lead z formularza dostaje wynik (budżet, dopasowanie, gotowość), a najcenniejsze trafiają do człowieka jako pierwsze. Kryteria są jawne i logowane, a nie ukryte profilowanie — co ma znaczenie przy RODO i AI Act.
Powiązane:KlasyfikatorAgent AIWyjście strukturalne
Odczyt tekstu z obrazu lub skanu — pierwszy krok przed ekstrakcją pól z dokumentów.
OCR zamienia skan faktury czy umowy w tekst, który model może dalej zaklasyfikować i z którego wyciągnie pola (NIP, kwota, data). W połączeniu z ekstrakcją i structured output daje pełny pipeline „skan → gotowe pola w systemie”.
Automatyzacja powtarzalnych kroków w istniejących aplikacjach; z AI staje się „inteligentna”.
Klasyczne RPA klika i przepisuje wg sztywnych reguł. Połączone z AI (klasyfikacja, ekstrakcja, decyzje) radzi sobie z wariancją — np. odczyta fakturę w dowolnym układzie zamiast wymagać jednego szablonu. U nas tę rolę pełnią agenci z allow-listą narzędzi i human-gate.
Powiązane:Agent AIUżycie narzędzi (tool use)Ekstrakcja danych
Projektowanie instrukcji dla modelu: rola, zasady, kontekst, format wyjścia.
Dobry prompt to nie magiczne zaklęcie, lecz inżynieria: jasna rola, ograniczenia, kontekst (np. z RAG) i wymuszony format. W produkcji prompt wersjonuje się i testuje jak kod — nie zgaduje.
Powiązane:PromptDuży model językowy (LLM)Wyjście strukturalne
Sztucznie wygenerowane dane do trenowania lub testów, gdy brakuje prawdziwych albo są wrażliwe.
Dane syntetyczne pomagają, gdy prawdziwych jest mało, są drogie albo objęte RODO — np. do testów i edge-case'ów. Trzeba pilnować, by odwzorowywały realny rozkład, inaczej model uczy się fikcji.
Powiązane:Fine-tuning (dostrajanie)KlasyfikatorPII (dane osobowe)
Zasady, role i kontrola nad tym, jak firma buduje i używa AI — kto odpowiada, co wolno, jak się audytuje.
Governance spina rozproszone wdrożenia w jeden ład: rejestr systemów AI, właściciele, zasady danych, ślad i przeglądy. To warunek zgodności z AI Act i kontroli ryzyka przy skali.
Powiązane:AI ActNadzór ludzki (human-in-the-loop)ObserwowalnośćGuardraile (barierki)
Pełny koszt systemu AI: nie tylko wdrożenie, ale inferencja, utrzymanie, monitoring i aktualizacje.
Cena wdrożenia to wierzchołek góry lodowej. TCO obejmuje koszt inferencji (chmura vs lokalnie), utrzymanie, obserwowalność i aktualizacje. Przy skali to one decydują, czy własne bije API.
Zdolność wykazania, dlaczego system AI dał daną odpowiedź lub decyzję — przeciwieństwo „czarnej skrzynki”.
Wyjaśnialność budujemy praktycznie: cytaty źródeł (RAG), log każdego kroku i guardrails — żeby dało się wykazać, skąd wzięła się odpowiedź. To wymóg zaufania i rozliczalności (RODO/AI Act).
Powiązane:HalucynacjaGuardraile (barierki)Nadzór ludzki (human-in-the-loop)AI Act