cashcrown // wiedza

Słownik AI

Pojęcia AI bez żargonu: RAG, embeddingi, agenci, RODO i infrastruktura — z definicjami, powiązaniami i wyszukiwaniem. Spójne z naszą architekturą i encjami.

61 pojęć

Duży model językowy (LLM)Podstawy

Model przewidujący kolejne tokeny tekstu, podstawa współczesnych systemów AI.

LLM uczy się statystyki języka z ogromnych korpusów i generuje tekst token po tokenie. Sam w sobie nie zna Twoich danych — wiedzę dziedzinową dokłada się przez RAG lub fine-tuning.

Powiązane:Token Inferencja RAG (generacja wspomagana wyszukiwaniem)Fine-tuning (dostrajanie)

TokenPodstawy

Najmniejsza jednostka tekstu przetwarzana przez model (część słowa).

Modele liczą koszt i limity w tokenach, nie znakach. ~1 token to średnio 4 znaki tekstu; rozliczenia i okno kontekstu mierzy się właśnie w tokenach.

Powiązane:Duży model językowy (LLM)Okno kontekstu Inferencja

Okno kontekstuPodstawy

Maksymalna liczba tokenów, którą model „widzi” naraz (wejście + wyjście).

Gdy rozmowa lub dokumenty przekraczają okno, trzeba je skracać lub wyszukiwać najtrafniejsze fragmenty — to jeden z powodów, dla których stosuje się RAG zamiast wrzucania całej bazy do promptu.

Powiązane:Token RAG (generacja wspomagana wyszukiwaniem)Prompt

PromptPodstawy

Instrukcja i kontekst podawane modelowi, które sterują odpowiedzią.

Dobry prompt to rola, zasady, kontekst (np. źródła z RAG) i format wyjścia. Wstrzyknięcie złośliwej instrukcji do promptu to prompt injection — bronią przed nim guardraile.

Powiązane:Okno kontekstu Guardraile (barierki)Wyjście strukturalne

InferencjaPodstawy

Uruchomienie wytrenowanego modelu, by wygenerował odpowiedź.

Inferencja to koszt operacyjny systemu AI — mierzony latencją i przepustowością. Można ją uruchamiać w chmurze lub lokalnie (self-hosting), co decyduje o rezydencji danych.

Powiązane:Latencja Self-hosting (lokalny hosting)Duży model językowy (LLM)

Fine-tuning (dostrajanie)Podstawy

Doszkolenie modelu na własnych przykładach, by zmienić jego styl lub zachowanie.

Fine-tuning zmienia wagi modelu i jest kosztowny; do wnoszenia świeżej wiedzy faktograficznej zwykle lepszy jest RAG (tańszy, aktualizowalny bez retreningu). Oba podejścia bywają łączone.

Powiązane:Duży model językowy (LLM)RAG (generacja wspomagana wyszukiwaniem)Inferencja

RAG (generacja wspomagana wyszukiwaniem)RAG i wyszukiwanie

Najpierw wyszukaj fakty z bazy, potem każ modelowi odpowiedzieć tylko na ich podstawie.

RAG ogranicza halucynacje: model dostaje konkretne źródła i cytuje je. To fundament rzetelnej obsługi klienta — odpowiedź jest ugruntowana, a przy słabym dopasowaniu system eskaluje do człowieka zamiast zmyślać.

Powiązane:Embedding (wektor)Wektorowa baza danych Wyszukiwanie hybrydowe Halucynacja Router LLM

Embedding (wektor)RAG i wyszukiwanieBGE-M3

Tekst zamieniony na listę liczb, gdzie bliskość = podobieństwo znaczeń.

Embeddingi pozwalają wyszukiwać po znaczeniu, nie po słowach kluczowych. Cashcrown liczy je lokalnie modelem BGE-M3 (1024 wymiary), więc treść do osadzenia nie opuszcza infrastruktury.

Powiązane:Wektorowa baza danych Wyszukiwanie semantyczne BGE-M3

Wektorowa baza danychRAG i wyszukiwanieQdrant

Baza przechowująca embeddingi i znajdująca najbliższe wektory w milisekundach.

Serce wyszukiwania semantycznego w RAG. Cashcrown używa Qdranta uruchomionego lokalnie jako natywna usługa — wektory i metadane zostają na własnym serwerze.

Powiązane:Embedding (wektor)Wyszukiwanie semantyczne Wyszukiwanie hybrydowe

Wyszukiwanie semantyczneRAG i wyszukiwanie

Szukanie po znaczeniu zdania, a nie po dosłownym dopasowaniu słów.

Pytanie i dokumenty zamieniane są na embeddingi i porównywane wektorowo, więc „jak chronić dane” znajdzie tekst o RODO nawet bez wspólnych słów.

Powiązane:Embedding (wektor)Wektorowa baza danych Wyszukiwanie hybrydowe FAQ explorer

Wyszukiwanie hybrydoweRAG i wyszukiwanie

Połączenie wyszukiwania semantycznego z klasycznym (słowa kluczowe).

Semantyka łapie sens, a wyszukiwanie pełnotekstowe — dokładne nazwy i kody. Łączenie obu (np. wektory + FTS Postgresa) daje trafniejsze wyniki niż każde z osobna.

Powiązane:Wyszukiwanie semantyczne Reranking Wektorowa baza danych

RerankingRAG i wyszukiwanie

Drugi przebieg, który przestawia wyniki wyszukiwania wg trafności.

Po szybkim wyszukaniu kandydatów dokładniejszy model ocenia każdy względem pytania i podnosi najlepsze na górę — poprawia jakość kontekstu trafiającego do LLM.

Powiązane:Wyszukiwanie hybrydowe RAG (generacja wspomagana wyszukiwaniem)

Router LLMAgenciOpenClaw

Jedno wejście do modeli: dobiera model do zadania, maskuje PII, pilnuje limitów.

Cały ruch AI w Cashcrown idzie przez router OpenClaw — żaden kod nie woła dostawcy bezpośrednio. Dzięki temu maskowanie PII, fallback modeli i telemetria są egzekwowane w jednym miejscu.

Powiązane:Duży model językowy (LLM)PII (dane osobowe)Wyjście strukturalne Obserwowalność Dobór modelu (routing)Tryb rozumowania (thinking)

Więcej:Atlas modeli →

Agent AIAgenci

System AI, który planuje kroki i używa narzędzi, by wykonać zadanie.

Agent nie tylko odpowiada — działa: wyszukuje, woła API, rezerwuje termin. Bezpieczeństwo wymaga barierek i potwierdzeń przy akcjach nieodwracalnych, by działanie nie wymknęło się spod kontroli.

Powiązane:Użycie narzędzi (tool use)Guardraile (barierki)Concierge (asystent)

Użycie narzędzi (tool use)Agenci

Zdolność modelu do wywoływania funkcji/API zamiast tylko pisać tekst.

Model dostaje katalog narzędzi z opisem argumentów i decyduje, które wywołać. Akcje nieodwracalne (np. rezerwacja) wymagają serwerowego tokenu potwierdzenia, nie samej deklaracji modelu.

Powiązane:Agent AI Wyjście strukturalne Guardraile (barierki)

Guardraile (barierki)Agenci

Reguły, które ograniczają, co model może przyjąć na wejściu i wypuścić na wyjściu.

Na wejściu odrzucają prompt injection, na wyjściu kwalifikują obietnice (np. ceny widełkami, terminy z zastrzeżeniem). Barierki sprawiają, że asystent nie obieca rzeczy, których nie powinien.

Powiązane:Prompt Halucynacja Agent AI Użycie narzędzi (tool use)

HalucynacjaAgenci

Pewnie brzmiąca, ale zmyślona odpowiedź modelu.

Modele uzupełniają luki prawdopodobnym tekstem, nawet gdy nie znają faktu. RAG z cytowaniem i progiem pewności (eskalacja do człowieka przy słabym dopasowaniu) to główna obrona.

Powiązane:RAG (generacja wspomagana wyszukiwaniem)Guardraile (barierki)Duży model językowy (LLM)

Wyjście strukturalneAgenci

Wymuszenie, by model zwrócił poprawny JSON zgodny ze schematem.

Bez tego odpowiedź modelu trudno bezpiecznie sparsować. Cashcrown używa promptu opartego o JSON z walidacją schematu i jedną naprawą — to stabilniejsze niż wolne tryby „json_schema” u części dostawców.

Powiązane:Prompt Użycie narzędzi (tool use)Router LLM

PII (dane osobowe)Prywatność i RODO

Informacje identyfikujące osobę: e-mail, telefon, nazwisko, adres.

Przed wysłaniem czegokolwiek do chmury router maskuje PII tokenami, a po odpowiedzi je przywraca — model w chmurze nigdy nie widzi prawdziwych danych osobowych.

Powiązane:RODO (GDPR)Router LLM Rezydencja danych

RODO (GDPR)Prywatność i RODO

Unijne prawo ochrony danych osobowych: zgoda, minimalizacja, prawo do usunięcia.

W praktyce: zgoda przed śledzeniem, przechowywanie tylko niezbędnego, oraz realne usunięcie danych na żądanie. W Cashcrown te zasady są wbudowane w pipeline, nie doklejone później.

Powiązane:PII (dane osobowe)Rezydencja danych Self-hosting (lokalny hosting)

Rezydencja danychPrywatność i RODO

Gdzie fizycznie znajdują się i są przetwarzane Twoje dane.

Lokalne embeddingi (BGE-M3) i lokalny Qdrant oznaczają, że wrażliwe treści nie wychodzą poza serwer. Do chmury trafia tylko zamaskowany prompt — to świadomy wybór rezydencji.

Powiązane:Self-hosting (lokalny hosting)PII (dane osobowe)RODO (GDPR)

Self-hosting (lokalny hosting)Infrastruktura

Uruchamianie modeli i usług na własnej infrastrukturze, nie u dostawcy.

Daje kontrolę nad danymi i kosztami oraz niezależność od jednego dostawcy. Cashcrown hostuje lokalnie embeddingi, wektorową bazę i wyszukiwanie, a do chmury sięga tylko po generację — z maskowaniem.

Powiązane:Rezydencja danych Inferencja Wektorowa baza danych

BGE-M3InfrastrukturaBGE-M3

Wielojęzyczny model embeddingów uruchamiany lokalnie (1024 wymiary).

Zamienia tekst w wielu językach na wektory bez wysyłania go do chmury — fundament prywatnego RAG w Cashcrown.

Powiązane:Embedding (wektor)Wektorowa baza danych Self-hosting (lokalny hosting)Dobór modelu (routing)

Więcej:BGE-M3 w atlasie modeli →

ObserwowalnośćInfrastruktura

Metryki, logi i ślady, które pokazują, co system AI naprawdę robi.

Bez pomiaru nie da się rządzić kosztem ani jakością. Cashcrown wystawia metryki (Prometheus), korelowane logi i ślady, więc każde wywołanie modelu jest policzalne i diagnozowalne.

Powiązane:Latencja Router LLM Inferencja

LatencjaInfrastruktura

Czas od pytania do odpowiedzi; niska latencja = płynna interakcja.

Streaming odpowiedzi po tokenie skraca odczuwaną latencję — użytkownik widzi tekst, zanim model skończy. To dlatego asystent „pisze na żywo”.

Powiązane:Inferencja Przepustowość Obserwowalność

PrzepustowośćInfrastruktura

Ile zapytań/tokenów system obsłuży w jednostce czasu.

Razem z latencją opisuje wydajność serwowania modeli. Limity współbieżności i backpressure chronią przepustowość przed przeciążeniem.

Powiązane:Latencja Inferencja Obserwowalność

Concierge (asystent)Agenci

Asystent AI oparty o RAG, który odpowiada z cytatami i eskaluje do człowieka.

Concierge Cashcrown łączy RAG, guardraile, wielojęzyczność i strumieniowanie — odpowiada na żywo z przypisami, a gdy nie wie, łączy z człowiekiem zamiast zmyślać.

Powiązane:RAG (generacja wspomagana wyszukiwaniem)Agent AI Guardraile (barierki)Latencja

FAQ explorerSEO i AEO

Przeszukiwanie pytań i odpowiedzi po znaczeniu, nie tylko po słowach.

Semantyczne FAQ podpowiada najtrafniejszą odpowiedź, nawet gdy pytanie sformułowano inaczej niż w bazie — wykorzystuje te same embeddingi co RAG.

Powiązane:Wyszukiwanie semantyczne RAG (generacja wspomagana wyszukiwaniem)Concierge (asystent)

Tryb rozumowania (thinking)Podstawy

Tryb, w którym model najpierw rozumuje wewnętrznie, zanim sformułuje odpowiedź.

Modele „myślące” prowadzą ukryte rozumowanie — świetne przy trudnych decyzjach, ale wolniejsze i droższe. Włączone „na siłę” do zwykłego czatu potrafią zwrócić pustą odpowiedź, dlatego włączamy je tylko dla zadań rozumowania (parametr think).

Powiązane:Duży model językowy (LLM)Inferencja Dobór modelu (routing)Latencja

Więcej:Atlas modeli →Który model AI? (drzewo) →

Dobór modelu (routing)Infrastruktura

Wybór właściwego modelu do zadania — najtańszego, który je udźwignie.

Nie ma jednego „najlepszego” modelu; router OpenClaw dobiera go do zadania na podstawie mierzonej przepustowości, czasu startu (TTFT) i okna kontekstu — nie nazwy. Pełną flotę z mierzonymi parametrami i dobór wg zadania pokazuje atlas modeli.

Powiązane:Router LLM Przepustowość TTFT (czas do pierwszego tokenu)Tryb rozumowania (thinking)Okno kontekstu

Więcej:Atlas modeli →Porównanie modeli →

TTFT (czas do pierwszego tokenu)Infrastruktura

Czas od wysłania pytania do pojawienia się pierwszego tokenu odpowiedzi.

TTFT decyduje o tym, jak „szybko” model wydaje się odpowiadać — przy streamingu użytkownik widzi tekst po tym czasie. Mierzymy go na żywo dla każdego modelu, bo nazwy bywają mylące („flash” potrafi być wolniejszy od dużego modelu).

Powiązane:Latencja Przepustowość Dobór modelu (routing)

Więcej:Atlas modeli →

AI ActPrywatność i RODO

Unijne rozporządzenie, które klasyfikuje systemy AI według ryzyka i nakłada obowiązki.

AI Act dzieli systemy na poziomy ryzyka. Dla ograniczonego ryzyka (chatboty, asystenci) kluczowa jest transparentność — użytkownik musi wiedzieć, że rozmawia z AI. Dla wysokiego ryzyka dochodzą nadzór ludzki, dokumentacja techniczna, rejestry logów i ocena zgodności. Obowiązuje od 2024 i jest stosowany etapami: zakazy niedozwolonych praktyk od 2025, a transparentność dla chatbotów (art. 50) i większość obowiązków dla wysokiego ryzyka od sierpnia 2026.

Powiązane:RODO (GDPR)DPIA (ocena skutków dla ochrony danych)Nadzór ludzki (human-in-the-loop)Guardraile (barierki)

DPIA (ocena skutków dla ochrony danych)Prywatność i RODO

Ocena ryzyka wymagana, gdy przetwarzanie może powodować wysokie ryzyko dla praw osób.

DPIA wynika z RODO i jest wymagana typowo przy profilowaniu na dużą skalę, danych wrażliwych albo automatycznych decyzjach o ludziach. Asystent, który tylko odpowiada z bazy wiedzy, zwykle jej nie wymaga; system, który profiluje lub decyduje — prawdopodobnie tak.

Powiązane:RODO (GDPR)AI Act PII (dane osobowe)

Nadzór ludzki (human-in-the-loop)Agenci

Wymóg, by człowiek nadzorował i potwierdzał istotne lub nieodwracalne decyzje AI.

Nadzór ludzki to filar zgodności i bezpieczeństwa: akcje nieodwracalne przechodzą przez potwierdzenie (human-gate), a system działa autonomicznie tylko w wąskim, opisanym zakresie. RODO daje też prawo do niebycia przedmiotem wyłącznie zautomatyzowanej decyzji.

Powiązane:Agent AI Guardraile (barierki)AI Act

KlasyfikatorPodstawy

Model, który czyta dokument lub wiadomość i przypisuje ją do jednej z kategorii.

Klasyfikacja to jedno z zadań o najszybszym ROI: dekretacja faktur, kategoryzacja zgłoszeń, ocena leadów. Wynik jest mierzalny z definicji (procent poprawnych przypisań), a proces zwykle już istnieje ręcznie — dlatego to dobry kandydat na pierwsze wdrożenie.

Powiązane:Ekstrakcja danych Wyjście strukturalne Duży model językowy (LLM)

Ekstrakcja danychPodstawy

Wyciąganie konkretnych pól z tekstu — numer faktury, kwota, NIP, data, dane z CV.

Ekstrakcja zamienia nieustrukturyzowany tekst w pola gotowe do systemu. Razem z klasyfikacją rozwiązuje dużą część pierwszych pomysłów na AI w polskich firmach. Najlepiej działa z wymuszonym schematem (structured output), który gwarantuje poprawny format.

Powiązane:Klasyfikator Wyjście strukturalne RAG (generacja wspomagana wyszukiwaniem)

Przekazanie do człowieka (human-handoff)Agenci

Płynne przekazanie rozmowy od asystenta AI do człowieka, gdy sprawa tego wymaga.

Handoff to dowód dojrzałości systemu, nie porażki: przy niskiej pewności, frustracji klienta albo sprawie wymagającej decyzji asystent eskaluje do człowieka zamiast zgadywać. To także wymóg transparentności z AI Act — użytkownik zawsze może rozmawiać z człowiekiem.

Powiązane:Nadzór ludzki (human-in-the-loop)Concierge (asystent)Halucynacja AI Act

PilotażInfrastruktura

Wdrożenie jednego, wąskiego procesu o stałym koszcie, by zmierzyć wartość przed skalą.

Pilotaż obniża ryzyko po obu stronach: zamiast wielkiego kontraktu pokazujemy działający system na jednym mierzalnym procesie. Jeśli dowiezie liczby (odzyskane godziny, % spraw zamkniętych bez człowieka), poszerzamy zakres; jeśli nie — kosztował niewiele.

Powiązane:Klasyfikator Obserwowalność RAG (generacja wspomagana wyszukiwaniem)

Scoring leadówAgenci

Automatyczna ocena i priorytetyzacja zapytań wg dopasowania do profilu klienta (ICP).

Scoring to klasyfikacja zastosowana do sprzedaży: lead z formularza dostaje wynik (budżet, dopasowanie, gotowość), a najcenniejsze trafiają do człowieka jako pierwsze. Kryteria są jawne i logowane, a nie ukryte profilowanie — co ma znaczenie przy RODO i AI Act.

Powiązane:Klasyfikator Agent AI Wyjście strukturalne

OCR (rozpoznawanie tekstu)RAG i wyszukiwanie

Odczyt tekstu z obrazu lub skanu — pierwszy krok przed ekstrakcją pól z dokumentów.

OCR zamienia skan faktury czy umowy w tekst, który model może dalej zaklasyfikować i z którego wyciągnie pola (NIP, kwota, data). W połączeniu z ekstrakcją i structured output daje pełny pipeline „skan → gotowe pola w systemie”.

Powiązane:Ekstrakcja danych Klasyfikator Wyjście strukturalne

RPA (automatyzacja robotyczna)Agenci

Automatyzacja powtarzalnych kroków w istniejących aplikacjach; z AI staje się „inteligentna”.

Klasyczne RPA klika i przepisuje wg sztywnych reguł. Połączone z AI (klasyfikacja, ekstrakcja, decyzje) radzi sobie z wariancją — np. odczyta fakturę w dowolnym układzie zamiast wymagać jednego szablonu. U nas tę rolę pełnią agenci z allow-listą narzędzi i human-gate.

Powiązane:Agent AI Użycie narzędzi (tool use)Ekstrakcja danych

Prompt engineeringPodstawy

Projektowanie instrukcji dla modelu: rola, zasady, kontekst, format wyjścia.

Dobry prompt to nie magiczne zaklęcie, lecz inżynieria: jasna rola, ograniczenia, kontekst (np. z RAG) i wymuszony format. W produkcji prompt wersjonuje się i testuje jak kod — nie zgaduje.

Powiązane:Prompt Duży model językowy (LLM)Wyjście strukturalne

Dane syntetycznePodstawy

Sztucznie wygenerowane dane do trenowania lub testów, gdy brakuje prawdziwych albo są wrażliwe.

Dane syntetyczne pomagają, gdy prawdziwych jest mało, są drogie albo objęte RODO — np. do testów i edge-case'ów. Trzeba pilnować, by odwzorowywały realny rozkład, inaczej model uczy się fikcji.

Powiązane:Fine-tuning (dostrajanie)Klasyfikator PII (dane osobowe)

AI governance (ład AI)Prywatność i RODO

Zasady, role i kontrola nad tym, jak firma buduje i używa AI — kto odpowiada, co wolno, jak się audytuje.

Governance spina rozproszone wdrożenia w jeden ład: rejestr systemów AI, właściciele, zasady danych, ślad i przeglądy. To warunek zgodności z AI Act i kontroli ryzyka przy skali.

Powiązane:AI Act Nadzór ludzki (human-in-the-loop)Obserwowalność Guardraile (barierki)

TCO (całkowity koszt posiadania)Infrastruktura

Pełny koszt systemu AI: nie tylko wdrożenie, ale inferencja, utrzymanie, monitoring i aktualizacje.

Cena wdrożenia to wierzchołek góry lodowej. TCO obejmuje koszt inferencji (chmura vs lokalnie), utrzymanie, obserwowalność i aktualizacje. Przy skali to one decydują, czy własne bije API.

Powiązane:Inferencja Self-hosting (lokalny hosting)Pilotaż

Wyjaśnialność (XAI)Prywatność i RODO

Zdolność wykazania, dlaczego system AI dał daną odpowiedź lub decyzję — przeciwieństwo „czarnej skrzynki”.

Wyjaśnialność budujemy praktycznie: cytaty źródeł (RAG), log każdego kroku i guardrails — żeby dało się wykazać, skąd wzięła się odpowiedź. To wymóg zaufania i rozliczalności (RODO/AI Act).

Powiązane:Halucynacja Guardraile (barierki)Nadzór ludzki (human-in-the-loop)AI Act

Dzielenie na fragmenty (chunking)RAG i wyszukiwanie

Cięcie dokumentów na fragmenty, które trafiają do embeddingu i wyszukiwania w RAG.

Model nie indeksuje całych plików, lecz krótsze fragmenty — bo okno kontekstu jest ograniczone, a precyzyjny fragment trafia lepiej niż cała strona. Zła granica (przecięte zdanie, rozbita tabela) psuje trafność, dlatego tniemy po nagłówkach i akapitach z lekkim zakładem, a nie na ślepo po liczbie znaków.

Powiązane:RAG (generacja wspomagana wyszukiwaniem)Embedding (wektor)Okno kontekstu Reranking

MCP (Model Context Protocol)Agenci

Otwarty standard, który podłącza modele i agentów do narzędzi oraz źródeł danych przez wspólny interfejs.

MCP to wspólny „pasek wtyczek”: zamiast pisać osobną integrację do każdego systemu, serwer MCP wystawia narzędzia i dane, a agent po nie sięga w ustandaryzowany sposób. Wygodne, ale powiększa powierzchnię ataku — każdy serwer MCP musi mieć allow-listę i kontrolę uprawnień, bo udostępnione narzędzie staje się realną akcją.

Powiązane:Agent AI Użycie narzędzi (tool use)Guardraile (barierki)Router LLM

Graph RAG (RAG na grafie)RAG i wyszukiwanie

RAG, który oprócz fragmentów tekstu wyszukuje po grafie encji i powiązań między nimi.

Zwykły RAG zwraca podobne fragmenty, ale gubi pytania „jak to się łączy?”. Graph RAG buduje graf encji (osoby, firmy, dokumenty) i ich relacji, więc radzi sobie z pytaniami wieloetapowymi i kontekstem rozsianym po wielu plikach. Kosztuje więcej przy budowie i utrzymaniu, dlatego stosujemy go tam, gdzie powiązania naprawdę mają znaczenie, a nie domyślnie.

Powiązane:RAG (generacja wspomagana wyszukiwaniem)Wyszukiwanie semantyczne Wektorowa baza danych Agentic RAG (RAG agentowy)

Agentic RAG (RAG agentowy)RAG i wyszukiwanie

RAG, w którym agent planuje wyszukiwania, sam ocenia wyniki i dopytuje, zamiast jednego strzału.

Klasyczny RAG to jedno wyszukanie i odpowiedź. W agentic RAG agent rozbija trudne pytanie na kroki, wyszukuje wielokrotnie, ocenia czy znaleziony kontekst wystarcza i w razie potrzeby dopytuje albo zmienia zapytanie. Daje lepsze odpowiedzi na złożone pytania kosztem większej liczby wywołań modelu, więc nadal pilnują go guardraile i limity.

Powiązane:RAG (generacja wspomagana wyszukiwaniem)Agent AI Graph RAG (RAG na grafie)Guardraile (barierki)

Cache semantycznyInfrastruktura

Pamięć podręczna, która zwraca gotową odpowiedź na pytanie podobne znaczeniowo do wcześniejszego.

Zwykły cache trafia tylko przy identycznym tekście; cache semantyczny porównuje embeddingi, więc „ile kosztuje wdrożenie?” i „jaka jest cena pilotażu?” mogą trafić w ten sam zapisany wynik. Obniża to latencję i koszt inferencji, ale wymaga progu podobieństwa i krótkiego TTL, by nie podawać nieaktualnej albo zbyt naciąganej odpowiedzi.

Powiązane:Embedding (wektor)Wyszukiwanie semantyczne Latencja Inferencja

KwantyzacjaInfrastruktura

Zapis wag modelu z mniejszą precyzją, by zmieścił się na słabszym sprzęcie.

Kwantyzacja zaokrągla wagi (np. z 16 do 4 bitów), więc model zajmuje mniej pamięci i działa szybciej — kosztem nieznacznej utraty jakości. To podstawowy trik, który pozwala uruchamiać użyteczne modele lokalnie (self-hosting), zamiast wyłącznie w chmurze.

Powiązane:Self-hosting (lokalny hosting)Inferencja Latencja Przepustowość

LoRA i QLoRAInfrastruktura

Tani sposób dostrajania modelu — uczy małych dodatków zamiast całych wag.

LoRA dokłada do modelu małe, douczane warstwy (adaptery), więc fine-tuning jest tańszy i szybszy niż trenowanie całości. QLoRA łączy to z kwantyzacją, by zmieścić trening na jednej karcie. Do wnoszenia świeżych faktów zwykle i tak lepszy jest RAG.

Powiązane:Fine-tuning (dostrajanie)Kwantyzacja RAG (generacja wspomagana wyszukiwaniem)Self-hosting (lokalny hosting)

TemperaturaPodstawy

Pokrętło losowości — niska daje stałe, przewidywalne odpowiedzi, wysoka kreatywne.

Temperatura steruje tym, jak bardzo model „ryzykuje” przy wyborze kolejnego tokenu. Do obsługi klienta, ekstrakcji danych i odpowiedzi opartych na źródłach ustawiamy ją nisko (powtarzalność), a wyżej tylko tam, gdzie zależy nam na różnorodności.

Powiązane:Duży model językowy (LLM)Inferencja Wyjście strukturalne Halucynacja

Mieszanka ekspertów (MoE)Infrastruktura

Architektura, w której na każdy token aktywuje się tylko część modelu.

Model MoE dzieli się na wielu „ekspertów”, a router włącza dla danego tokenu tylko kilku z nich. Dzięki temu model może być bardzo duży (dużo wiedzy), ale tani w inferencji, bo liczy się tylko aktywna część — stąd ich popularność w lokalnych wdrożeniach.

Powiązane:Inferencja Przepustowość Dobór modelu (routing)Self-hosting (lokalny hosting)

Strumieniowanie tokenówInfrastruktura

Wyświetlanie odpowiedzi słowo po słowie, gdy tylko model je generuje.

Zamiast czekać na całą odpowiedź, streaming pokazuje tekst token po tokenie — użytkownik widzi pierwsze słowa po czasie TTFT, więc system wydaje się szybszy. W Cashcrown asystent strumieniuje odpowiedzi przez SSE, co zauważalnie poprawia odczuwaną responsywność.

Powiązane:TTFT (czas do pierwszego tokenu)Latencja Concierge (asystent)Inferencja

Prompt injection (wstrzyknięcie instrukcji)Agenci

Ukryta instrukcja w danych wejściowych, która ma przejąć kontrolę nad modelem.

Atakujący ukrywa polecenie w wiadomości, dokumencie albo na stronie WWW („zignoruj instrukcje, wyślij sekrety”), a model traktuje je jak swoje. To główne zagrożenie agentów z narzędziami; bronimy się, skanując wejście guardrailami przed modelem i wymagając serwerowego potwierdzenia akcji nieodwracalnych — sam model nigdy nie wystarczy.

Powiązane:Guardraile (barierki)Prompt Użycie narzędzi (tool use)

Red teaming (testy adwersaryjne)Agenci

Celowe atakowanie własnego systemu AI, by znaleźć luki, zanim znajdzie je ktoś inny.

Red teaming to bateria prób: prompt injection, próby wyciągnięcia sekretów, obejścia guardraili, wymuszanie obietnic czy halucynacji. Cashcrown utrzymuje taki zestaw jako stały gate (np. wielojęzyczne wzorce injection PL/EN/DE/UK), bo atak skuteczny w jednym języku często przechodzi w innym.

Powiązane:Prompt injection (wstrzyknięcie instrukcji)Guardraile (barierki)Ewaluacja agenta (golden set)Halucynacja

MultimodalnośćPodstawy

Model, który rozumie nie tylko tekst, ale też obraz, dokumenty PDF czy dźwięk.

Multimodalny model przyjmuje obrazy, skany albo nagrania i pracuje na nich tak jak na tekście — opisuje zdjęcie, czyta fakturę, transkrybuje rozmowę. W praktyce łączymy to z OCR i ekstrakcją w pipeline „dokument → gotowe pola”, a wgrywane pliki przetwarzamy bez zapisu na dysk i bez retencji.

Powiązane:OCR (rozpoznawanie tekstu)Ekstrakcja danych Mowa (STT / TTS)Duży model językowy (LLM)

Mowa (STT / TTS)Podstawy

Zamiana mowy na tekst (STT) i tekstu na mowę (TTS) — podstawa asystenta głosowego.

STT (speech-to-text) zapisuje wypowiedź jako tekst, TTS (text-to-speech) czyta odpowiedź na głos. Cashcrown transkrybuje lokalnie modelem Whisper, więc nagranie nie opuszcza serwera; sam asystent głosowy to złożenie STT, RAG i guardraili, a nie osobny „magiczny” model.

Powiązane:Multimodalność Concierge (asystent)Self-hosting (lokalny hosting)Latencja

Ewaluacja agenta (golden set)Agenci

Pomiar jakości agenta na stałym zestawie wzorcowych przypadków, a nie „na oko”.

Golden set to zestaw pytań z oczekiwaną odpowiedzią (i poprawnym wyborem narzędzia), na którym mierzymy trafność po każdej zmianie promptu czy modelu — żeby poprawka jednej rzeczy nie zepsuła dziesięciu innych. Bez tego „lepiej” jest tylko wrażeniem; z tym staje się liczbą, którą można obronić.

Powiązane:Red teaming (testy adwersaryjne)Agent AI Obserwowalność Wyjście strukturalne

Słownik AI

Pojęcia AI bez żargonu: RAG, embeddingi, agenci, RODO i infrastruktura — z definicjami, powiązaniami i wyszukiwaniem. Spójne z naszą architekturą i encjami.

61 pojęć

Duży model językowy (LLM)Podstawy

Model przewidujący kolejne tokeny tekstu, podstawa współczesnych systemów AI.

LLM uczy się statystyki języka z ogromnych korpusów i generuje tekst token po tokenie. Sam w sobie nie zna Twoich danych — wiedzę dziedzinową dokłada się przez RAG lub fine-tuning.

Powiązane:Token Inferencja RAG (generacja wspomagana wyszukiwaniem)Fine-tuning (dostrajanie)

TokenPodstawy

Najmniejsza jednostka tekstu przetwarzana przez model (część słowa).

Modele liczą koszt i limity w tokenach, nie znakach. ~1 token to średnio 4 znaki tekstu; rozliczenia i okno kontekstu mierzy się właśnie w tokenach.

Powiązane:Duży model językowy (LLM)Okno kontekstu Inferencja

Okno kontekstuPodstawy

Maksymalna liczba tokenów, którą model „widzi” naraz (wejście + wyjście).

Powiązane:Token RAG (generacja wspomagana wyszukiwaniem)Prompt

PromptPodstawy

Instrukcja i kontekst podawane modelowi, które sterują odpowiedzią.

Dobry prompt to rola, zasady, kontekst (np. źródła z RAG) i format wyjścia. Wstrzyknięcie złośliwej instrukcji do promptu to prompt injection — bronią przed nim guardraile.

Powiązane:Okno kontekstu Guardraile (barierki)Wyjście strukturalne

InferencjaPodstawy

Uruchomienie wytrenowanego modelu, by wygenerował odpowiedź.

Inferencja to koszt operacyjny systemu AI — mierzony latencją i przepustowością. Można ją uruchamiać w chmurze lub lokalnie (self-hosting), co decyduje o rezydencji danych.

Powiązane:Latencja Self-hosting (lokalny hosting)Duży model językowy (LLM)

Fine-tuning (dostrajanie)Podstawy

Doszkolenie modelu na własnych przykładach, by zmienić jego styl lub zachowanie.

Fine-tuning zmienia wagi modelu i jest kosztowny; do wnoszenia świeżej wiedzy faktograficznej zwykle lepszy jest RAG (tańszy, aktualizowalny bez retreningu). Oba podejścia bywają łączone.

Powiązane:Duży model językowy (LLM)RAG (generacja wspomagana wyszukiwaniem)Inferencja

RAG (generacja wspomagana wyszukiwaniem)RAG i wyszukiwanie

Najpierw wyszukaj fakty z bazy, potem każ modelowi odpowiedzieć tylko na ich podstawie.

Powiązane:Embedding (wektor)Wektorowa baza danych Wyszukiwanie hybrydowe Halucynacja Router LLM

Embedding (wektor)RAG i wyszukiwanieBGE-M3

Tekst zamieniony na listę liczb, gdzie bliskość = podobieństwo znaczeń.

Embeddingi pozwalają wyszukiwać po znaczeniu, nie po słowach kluczowych. Cashcrown liczy je lokalnie modelem BGE-M3 (1024 wymiary), więc treść do osadzenia nie opuszcza infrastruktury.

Powiązane:Wektorowa baza danych Wyszukiwanie semantyczne BGE-M3

Wektorowa baza danychRAG i wyszukiwanieQdrant

Baza przechowująca embeddingi i znajdująca najbliższe wektory w milisekundach.

Serce wyszukiwania semantycznego w RAG. Cashcrown używa Qdranta uruchomionego lokalnie jako natywna usługa — wektory i metadane zostają na własnym serwerze.

Powiązane:Embedding (wektor)Wyszukiwanie semantyczne Wyszukiwanie hybrydowe

Wyszukiwanie semantyczneRAG i wyszukiwanie

Szukanie po znaczeniu zdania, a nie po dosłownym dopasowaniu słów.

Pytanie i dokumenty zamieniane są na embeddingi i porównywane wektorowo, więc „jak chronić dane” znajdzie tekst o RODO nawet bez wspólnych słów.

Powiązane:Embedding (wektor)Wektorowa baza danych Wyszukiwanie hybrydowe FAQ explorer

Wyszukiwanie hybrydoweRAG i wyszukiwanie

Połączenie wyszukiwania semantycznego z klasycznym (słowa kluczowe).

Semantyka łapie sens, a wyszukiwanie pełnotekstowe — dokładne nazwy i kody. Łączenie obu (np. wektory + FTS Postgresa) daje trafniejsze wyniki niż każde z osobna.

Powiązane:Wyszukiwanie semantyczne Reranking Wektorowa baza danych

RerankingRAG i wyszukiwanie

Drugi przebieg, który przestawia wyniki wyszukiwania wg trafności.

Po szybkim wyszukaniu kandydatów dokładniejszy model ocenia każdy względem pytania i podnosi najlepsze na górę — poprawia jakość kontekstu trafiającego do LLM.

Powiązane:Wyszukiwanie hybrydowe RAG (generacja wspomagana wyszukiwaniem)

Router LLMAgenciOpenClaw

Jedno wejście do modeli: dobiera model do zadania, maskuje PII, pilnuje limitów.

Cały ruch AI w Cashcrown idzie przez router OpenClaw — żaden kod nie woła dostawcy bezpośrednio. Dzięki temu maskowanie PII, fallback modeli i telemetria są egzekwowane w jednym miejscu.

Powiązane:Duży model językowy (LLM)PII (dane osobowe)Wyjście strukturalne Obserwowalność Dobór modelu (routing)Tryb rozumowania (thinking)

Więcej:Atlas modeli →

Agent AIAgenci

System AI, który planuje kroki i używa narzędzi, by wykonać zadanie.

Powiązane:Użycie narzędzi (tool use)Guardraile (barierki)Concierge (asystent)

Użycie narzędzi (tool use)Agenci

Zdolność modelu do wywoływania funkcji/API zamiast tylko pisać tekst.

Model dostaje katalog narzędzi z opisem argumentów i decyduje, które wywołać. Akcje nieodwracalne (np. rezerwacja) wymagają serwerowego tokenu potwierdzenia, nie samej deklaracji modelu.

Powiązane:Agent AI Wyjście strukturalne Guardraile (barierki)

Guardraile (barierki)Agenci

Reguły, które ograniczają, co model może przyjąć na wejściu i wypuścić na wyjściu.

Powiązane:Prompt Halucynacja Agent AI Użycie narzędzi (tool use)

HalucynacjaAgenci

Pewnie brzmiąca, ale zmyślona odpowiedź modelu.

Modele uzupełniają luki prawdopodobnym tekstem, nawet gdy nie znają faktu. RAG z cytowaniem i progiem pewności (eskalacja do człowieka przy słabym dopasowaniu) to główna obrona.

Powiązane:RAG (generacja wspomagana wyszukiwaniem)Guardraile (barierki)Duży model językowy (LLM)

Wyjście strukturalneAgenci

Wymuszenie, by model zwrócił poprawny JSON zgodny ze schematem.

Powiązane:Prompt Użycie narzędzi (tool use)Router LLM

PII (dane osobowe)Prywatność i RODO

Informacje identyfikujące osobę: e-mail, telefon, nazwisko, adres.

Przed wysłaniem czegokolwiek do chmury router maskuje PII tokenami, a po odpowiedzi je przywraca — model w chmurze nigdy nie widzi prawdziwych danych osobowych.

Powiązane:RODO (GDPR)Router LLM Rezydencja danych

RODO (GDPR)Prywatność i RODO

Unijne prawo ochrony danych osobowych: zgoda, minimalizacja, prawo do usunięcia.

W praktyce: zgoda przed śledzeniem, przechowywanie tylko niezbędnego, oraz realne usunięcie danych na żądanie. W Cashcrown te zasady są wbudowane w pipeline, nie doklejone później.

Powiązane:PII (dane osobowe)Rezydencja danych Self-hosting (lokalny hosting)

Rezydencja danychPrywatność i RODO

Gdzie fizycznie znajdują się i są przetwarzane Twoje dane.

Lokalne embeddingi (BGE-M3) i lokalny Qdrant oznaczają, że wrażliwe treści nie wychodzą poza serwer. Do chmury trafia tylko zamaskowany prompt — to świadomy wybór rezydencji.

Powiązane:Self-hosting (lokalny hosting)PII (dane osobowe)RODO (GDPR)

Self-hosting (lokalny hosting)Infrastruktura

Uruchamianie modeli i usług na własnej infrastrukturze, nie u dostawcy.

Powiązane:Rezydencja danych Inferencja Wektorowa baza danych

BGE-M3InfrastrukturaBGE-M3

Wielojęzyczny model embeddingów uruchamiany lokalnie (1024 wymiary).

Zamienia tekst w wielu językach na wektory bez wysyłania go do chmury — fundament prywatnego RAG w Cashcrown.

Powiązane:Embedding (wektor)Wektorowa baza danych Self-hosting (lokalny hosting)Dobór modelu (routing)

Więcej:BGE-M3 w atlasie modeli →

ObserwowalnośćInfrastruktura

Metryki, logi i ślady, które pokazują, co system AI naprawdę robi.

Bez pomiaru nie da się rządzić kosztem ani jakością. Cashcrown wystawia metryki (Prometheus), korelowane logi i ślady, więc każde wywołanie modelu jest policzalne i diagnozowalne.

Powiązane:Latencja Router LLM Inferencja

LatencjaInfrastruktura

Czas od pytania do odpowiedzi; niska latencja = płynna interakcja.

Streaming odpowiedzi po tokenie skraca odczuwaną latencję — użytkownik widzi tekst, zanim model skończy. To dlatego asystent „pisze na żywo”.

Powiązane:Inferencja Przepustowość Obserwowalność

PrzepustowośćInfrastruktura

Ile zapytań/tokenów system obsłuży w jednostce czasu.

Razem z latencją opisuje wydajność serwowania modeli. Limity współbieżności i backpressure chronią przepustowość przed przeciążeniem.

Powiązane:Latencja Inferencja Obserwowalność

Concierge (asystent)Agenci

Asystent AI oparty o RAG, który odpowiada z cytatami i eskaluje do człowieka.

Concierge Cashcrown łączy RAG, guardraile, wielojęzyczność i strumieniowanie — odpowiada na żywo z przypisami, a gdy nie wie, łączy z człowiekiem zamiast zmyślać.

Powiązane:RAG (generacja wspomagana wyszukiwaniem)Agent AI Guardraile (barierki)Latencja

FAQ explorerSEO i AEO

Przeszukiwanie pytań i odpowiedzi po znaczeniu, nie tylko po słowach.

Semantyczne FAQ podpowiada najtrafniejszą odpowiedź, nawet gdy pytanie sformułowano inaczej niż w bazie — wykorzystuje te same embeddingi co RAG.

Powiązane:Wyszukiwanie semantyczne RAG (generacja wspomagana wyszukiwaniem)Concierge (asystent)

Tryb rozumowania (thinking)Podstawy

Tryb, w którym model najpierw rozumuje wewnętrznie, zanim sformułuje odpowiedź.

Powiązane:Duży model językowy (LLM)Inferencja Dobór modelu (routing)Latencja

Więcej:Atlas modeli →Który model AI? (drzewo) →

Dobór modelu (routing)Infrastruktura

Wybór właściwego modelu do zadania — najtańszego, który je udźwignie.

Powiązane:Router LLM Przepustowość TTFT (czas do pierwszego tokenu)Tryb rozumowania (thinking)Okno kontekstu

Więcej:Atlas modeli →Porównanie modeli →

TTFT (czas do pierwszego tokenu)Infrastruktura

Czas od wysłania pytania do pojawienia się pierwszego tokenu odpowiedzi.

Powiązane:Latencja Przepustowość Dobór modelu (routing)

Więcej:Atlas modeli →

AI ActPrywatność i RODO

Unijne rozporządzenie, które klasyfikuje systemy AI według ryzyka i nakłada obowiązki.

Powiązane:RODO (GDPR)DPIA (ocena skutków dla ochrony danych)Nadzór ludzki (human-in-the-loop)Guardraile (barierki)

DPIA (ocena skutków dla ochrony danych)Prywatność i RODO

Ocena ryzyka wymagana, gdy przetwarzanie może powodować wysokie ryzyko dla praw osób.

Powiązane:RODO (GDPR)AI Act PII (dane osobowe)

Nadzór ludzki (human-in-the-loop)Agenci

Wymóg, by człowiek nadzorował i potwierdzał istotne lub nieodwracalne decyzje AI.

Powiązane:Agent AI Guardraile (barierki)AI Act

KlasyfikatorPodstawy

Model, który czyta dokument lub wiadomość i przypisuje ją do jednej z kategorii.

Powiązane:Ekstrakcja danych Wyjście strukturalne Duży model językowy (LLM)

Ekstrakcja danychPodstawy

Wyciąganie konkretnych pól z tekstu — numer faktury, kwota, NIP, data, dane z CV.

Powiązane:Klasyfikator Wyjście strukturalne RAG (generacja wspomagana wyszukiwaniem)

Przekazanie do człowieka (human-handoff)Agenci

Płynne przekazanie rozmowy od asystenta AI do człowieka, gdy sprawa tego wymaga.

Powiązane:Nadzór ludzki (human-in-the-loop)Concierge (asystent)Halucynacja AI Act

PilotażInfrastruktura

Wdrożenie jednego, wąskiego procesu o stałym koszcie, by zmierzyć wartość przed skalą.

Powiązane:Klasyfikator Obserwowalność RAG (generacja wspomagana wyszukiwaniem)

Scoring leadówAgenci

Automatyczna ocena i priorytetyzacja zapytań wg dopasowania do profilu klienta (ICP).

Powiązane:Klasyfikator Agent AI Wyjście strukturalne

OCR (rozpoznawanie tekstu)RAG i wyszukiwanie

Odczyt tekstu z obrazu lub skanu — pierwszy krok przed ekstrakcją pól z dokumentów.

Powiązane:Ekstrakcja danych Klasyfikator Wyjście strukturalne

RPA (automatyzacja robotyczna)Agenci

Automatyzacja powtarzalnych kroków w istniejących aplikacjach; z AI staje się „inteligentna”.

Powiązane:Agent AI Użycie narzędzi (tool use)Ekstrakcja danych

Prompt engineeringPodstawy

Projektowanie instrukcji dla modelu: rola, zasady, kontekst, format wyjścia.

Dobry prompt to nie magiczne zaklęcie, lecz inżynieria: jasna rola, ograniczenia, kontekst (np. z RAG) i wymuszony format. W produkcji prompt wersjonuje się i testuje jak kod — nie zgaduje.

Powiązane:Prompt Duży model językowy (LLM)Wyjście strukturalne

Dane syntetycznePodstawy

Sztucznie wygenerowane dane do trenowania lub testów, gdy brakuje prawdziwych albo są wrażliwe.

Powiązane:Fine-tuning (dostrajanie)Klasyfikator PII (dane osobowe)

AI governance (ład AI)Prywatność i RODO

Zasady, role i kontrola nad tym, jak firma buduje i używa AI — kto odpowiada, co wolno, jak się audytuje.

Governance spina rozproszone wdrożenia w jeden ład: rejestr systemów AI, właściciele, zasady danych, ślad i przeglądy. To warunek zgodności z AI Act i kontroli ryzyka przy skali.

Powiązane:AI Act Nadzór ludzki (human-in-the-loop)Obserwowalność Guardraile (barierki)

TCO (całkowity koszt posiadania)Infrastruktura

Pełny koszt systemu AI: nie tylko wdrożenie, ale inferencja, utrzymanie, monitoring i aktualizacje.

Cena wdrożenia to wierzchołek góry lodowej. TCO obejmuje koszt inferencji (chmura vs lokalnie), utrzymanie, obserwowalność i aktualizacje. Przy skali to one decydują, czy własne bije API.

Powiązane:Inferencja Self-hosting (lokalny hosting)Pilotaż

Wyjaśnialność (XAI)Prywatność i RODO

Zdolność wykazania, dlaczego system AI dał daną odpowiedź lub decyzję — przeciwieństwo „czarnej skrzynki”.

Powiązane:Halucynacja Guardraile (barierki)Nadzór ludzki (human-in-the-loop)AI Act

Dzielenie na fragmenty (chunking)RAG i wyszukiwanie

Cięcie dokumentów na fragmenty, które trafiają do embeddingu i wyszukiwania w RAG.

Powiązane:RAG (generacja wspomagana wyszukiwaniem)Embedding (wektor)Okno kontekstu Reranking

MCP (Model Context Protocol)Agenci

Otwarty standard, który podłącza modele i agentów do narzędzi oraz źródeł danych przez wspólny interfejs.

Powiązane:Agent AI Użycie narzędzi (tool use)Guardraile (barierki)Router LLM

Graph RAG (RAG na grafie)RAG i wyszukiwanie

RAG, który oprócz fragmentów tekstu wyszukuje po grafie encji i powiązań między nimi.

Powiązane:RAG (generacja wspomagana wyszukiwaniem)Wyszukiwanie semantyczne Wektorowa baza danych Agentic RAG (RAG agentowy)

Agentic RAG (RAG agentowy)RAG i wyszukiwanie

RAG, w którym agent planuje wyszukiwania, sam ocenia wyniki i dopytuje, zamiast jednego strzału.

Powiązane:RAG (generacja wspomagana wyszukiwaniem)Agent AI Graph RAG (RAG na grafie)Guardraile (barierki)

Cache semantycznyInfrastruktura

Pamięć podręczna, która zwraca gotową odpowiedź na pytanie podobne znaczeniowo do wcześniejszego.

Powiązane:Embedding (wektor)Wyszukiwanie semantyczne Latencja Inferencja

KwantyzacjaInfrastruktura

Zapis wag modelu z mniejszą precyzją, by zmieścił się na słabszym sprzęcie.

Powiązane:Self-hosting (lokalny hosting)Inferencja Latencja Przepustowość

LoRA i QLoRAInfrastruktura

Tani sposób dostrajania modelu — uczy małych dodatków zamiast całych wag.

Powiązane:Fine-tuning (dostrajanie)Kwantyzacja RAG (generacja wspomagana wyszukiwaniem)Self-hosting (lokalny hosting)

TemperaturaPodstawy

Pokrętło losowości — niska daje stałe, przewidywalne odpowiedzi, wysoka kreatywne.

Powiązane:Duży model językowy (LLM)Inferencja Wyjście strukturalne Halucynacja

Mieszanka ekspertów (MoE)Infrastruktura

Architektura, w której na każdy token aktywuje się tylko część modelu.

Powiązane:Inferencja Przepustowość Dobór modelu (routing)Self-hosting (lokalny hosting)

Strumieniowanie tokenówInfrastruktura

Wyświetlanie odpowiedzi słowo po słowie, gdy tylko model je generuje.

Powiązane:TTFT (czas do pierwszego tokenu)Latencja Concierge (asystent)Inferencja

Prompt injection (wstrzyknięcie instrukcji)Agenci

Ukryta instrukcja w danych wejściowych, która ma przejąć kontrolę nad modelem.

Powiązane:Guardraile (barierki)Prompt Użycie narzędzi (tool use)

Red teaming (testy adwersaryjne)Agenci

Celowe atakowanie własnego systemu AI, by znaleźć luki, zanim znajdzie je ktoś inny.

Powiązane:Prompt injection (wstrzyknięcie instrukcji)Guardraile (barierki)Ewaluacja agenta (golden set)Halucynacja

MultimodalnośćPodstawy

Model, który rozumie nie tylko tekst, ale też obraz, dokumenty PDF czy dźwięk.

Powiązane:OCR (rozpoznawanie tekstu)Ekstrakcja danych Mowa (STT / TTS)Duży model językowy (LLM)

Mowa (STT / TTS)Podstawy

Zamiana mowy na tekst (STT) i tekstu na mowę (TTS) — podstawa asystenta głosowego.

Powiązane:Multimodalność Concierge (asystent)Self-hosting (lokalny hosting)Latencja

Ewaluacja agenta (golden set)Agenci

Pomiar jakości agenta na stałym zestawie wzorcowych przypadków, a nie „na oko”.

Powiązane:Red teaming (testy adwersaryjne)Agent AI Obserwowalność Wyjście strukturalne