Jak dobrać model AI do zadania (a nie do mody)

Najczęstsze pytanie brzmi „jaki model AI jest najlepszy?”. To złe pytanie — jak „jaki samochód jest najlepszy?” bez podania, czy wozisz cement, czy ścigasz się na torze. Lepsze pytanie: który model do tego konkretnego zadania, przy moim koszcie i moich danych?

Nie ma jednego najlepszego modelu#

Modele różnią się profilem, nie „inteligencją w ogóle”. Jeden startuje odpowiedź w 0,4 s, ale jest mniejszy. Inny ma okno kontekstu na milion tokenów, lecz odpowiada wolno. Trzeci świetnie pisze kod, a kiepsko streszcza. Wybór „jednego do wszystkiego” oznacza, że za proste zadania przepłacasz mocą, a przy trudnych brakuje Ci jakości.

Dlatego nie stawiamy na jeden model, tylko na router, który ma do dyspozycji całą flotę i dobiera z niej narzędzie pod problem.

Zacznij od zadania, nie od modelu#

Najpierw nazwij zadanie, potem dobierz klasę modelu. W praktyce wystarczy kilka kategorii:

Rozmowa / asystent na wiedzy — model instruct o dobrym balansie jakości i latencji.
Rozumowanie — model „myślący” (patrz niżej), uruchamiany świadomie tam, gdzie liczy się trafność decyzji.
Kod — model wyspecjalizowany w programowaniu; liczy się przepustowość, bo odpowiedzi bywają długie.
Szybkie / tanie / klasyfikacja — mały, błyskawiczny model do routingu intencji, tagowania, ekstrakcji pól.
Wizja — model multimodalny, który rozumie obraz i tekst razem.
Streszczanie — model nie-„myślący”, który kondensuje, a nie filozofuje.

Tę mapę zadanie→model utrzymujemy jako konkretną macierz routingu — każde zadanie ma model główny i zapasowy. Zobacz, który model obsługuje co, w atlasie modeli, a jak składamy je w gotowe systemy — w sekcji jak to budujemy.

Nazwa myli — mierz#

Nazwy modeli sugerują szybkość i jakość, których nie ma. „Flash”, „pro”, „large” to marketing, nie pomiar. Z naszych własnych pomiarów: model z „flash” w nazwie potrafi dawać 0,6 tokena na sekundę (bardzo wolno), a duży model „671B” — 4,5 tokena na sekundę, czyli kilkukrotnie szybciej. Gdybyśmy ufali nazwie, wybralibyśmy odwrotnie.

Dlatego każdy model dobieramy pomiarem: czas do pierwszego tokenu (TTFT), przepustowość (tokeny/s), realne okno kontekstu i to, czy model w ogóle zwraca treść w danym trybie. Liczby na stronach modeli pochodzą z żywego routera, nie z kart katalogowych.

Czy model „udźwignie” — sprawdź na golden-secie#

Metryki techniczne (TTFT, tokeny/s, okno kontekstu) mówią, czy model jest szybki i stabilny, ale nie czy jest merytorycznie dobry do Twojego zadania. Żeby to rozstrzygnąć, zbuduj golden-set: kilkadziesiąt reprezentatywnych przypadków z Twoich danych plus jasną metrykę akceptacji (np. trafność odpowiedzi z cytatem, poprawność ekstrakcji pól). Model kwalifikuje się jako „udźwignie” dopiero, gdy przejdzie tę bramkę — i tę samą bramkę powtarzasz przy każdej zmianie modelu, żeby wyłapać regresję. Jak to mierzyć, opisujemy w ewaluacji agenta AI oraz w naszej metodyce.

Modele „myślące” (thinking) — kiedy warto#

Część nowoczesnych modeli to modele „myślące”: zanim odpowiedzą, prowadzą wewnętrzne rozumowanie. To potężne przy trudnych decyzjach — i kosztowne oraz wolne przy prostych. Co gorsza, włączone „na siłę” do zwykłego czatu potrafią spalić cały budżet na rozumowanie i zwrócić pustą odpowiedź.

Reguła jest prosta: tryb rozumowania włączaj tylko dla zadań, które naprawdę go wymagają (analiza, planowanie kroków agenta, trudne wybory). Dla rozmowy, tłumaczeń, kodu i streszczeń trzymaj go wyłączony — szybciej, taniej i z gwarancją treści. Router robi to za Ciebie automatycznie.

Koszt i dane też wybierają model#

Dobór to nie tylko jakość:

Koszt — chmura rozlicza czas pracy GPU, więc wolniejszy lub większy model to droższa odpowiedź. Rząd wielkości z naszych własnych pomiarów: ten sam output policzony małym modelem (ok. 59 tok/s) powstaje ok. 13× szybciej niż flagowym (ok. 4,5 tok/s) — czyli zajmuje ok. 13× mniej czasu GPU, a więc kosztuje proporcjonalnie mniej. Najtańszy model, który udźwignie zadanie, wygrywa.
Dane wrażliwe — jeśli przetwarzasz dane regulowane (RODO), część przetwarzania trzymaj lokalnie: embeddingi licz u siebie, a PII maskuj, zanim cokolwiek pójdzie do chmury. Maskowanie ogranicza ryzyko, ale o pełnej zgodności decydują też podstawa prawna, lokalizacja przetwarzania (transfer poza EOG) i umowa powierzenia z dostawcą — a przy treści szczególnie wrażliwej (umowy, dane zdrowotne) wrażliwy bywa sam kontekst, nie tylko nazwiska. Jak to ustawić omawiamy w self-hosted LLM a RODO.
Niezawodność — pojedynczy model bywa chwilowo przeciążony; dlatego każde zadanie ma łańcuch zapasowy, a nie jeden punkt awarii.

Mała tabela decyzyjna#

Twój problem	Klasa modelu	Co liczy się najbardziej
Klienci nie znajdują odpowiedzi	rozmowa + RAG	jakość, naturalność, cytaty
Trzeba podjąć trudną decyzję	rozumowanie (thinking)	trafność, okno kontekstu
Generowanie / refaktor kodu	kod	przepustowość, długi output
Routing, tagowanie, ekstrakcja	szybki / mały	TTFT i tokeny/s, niski koszt
Analiza zdjęć, dokumentów	wizja (multimodal)	rozumienie obrazu + tekstu
Skracanie długich treści	streszczanie	szybkość, brak „filozofowania”
Czy ten model wystarczy?	dowolna klasa	wynik na golden-secie + metryka akceptacji

Jeśli chcesz przejść przez to z konkretem dla swojego przypadku, mamy interaktywny dobór stacku — kilka pytań i rekomendacja warstw, łącznie z modelami.

Wypróbuj na żywo#

Poniższy przykład uruchamia model przez nasz bezpieczny sandbox — ten sam, co w playground: PII maskowane, zero retencji, te same limity. Zadaj pytanie o dobór modelu i zobacz odpowiedź.

▶Zapytaj o dobór modelusandbox · reasoning

FAQ#

Jaki model AI jest najlepszy dla firmy?#

Żaden pojedynczy. Najlepszy jest router, który do każdego zadania dobiera najtańszy model, który je udźwignie — rozmowa, rozumowanie, kod, wizja i streszczanie mają różne profile, więc różne modele. Wybór „jednego do wszystkiego” albo przepłaca przy prostych zadaniach, albo nie wystarcza przy trudnych.

Po czym poznać, że model pasuje do zadania?#

Po pomiarze, nie po nazwie. Sprawdź czas do pierwszego tokenu, przepustowość (tokeny/s), realne okno kontekstu i czy model zwraca treść w danym trybie. Nazwy typu „flash” czy „large” bywają mylące — zdarza się, że „flash” jest wolniejszy od dużego modelu.

Kiedy używać modeli „myślących” (reasoning)?#

Tylko przy zadaniach, które naprawdę wymagają rozumowania — analiza, planowanie, trudne decyzje. Dla rozmowy, tłumaczeń i streszczeń tryb rozumowania wyłącz: jest wolniejszy, droższy i potrafi zwrócić pustą odpowiedź, gdy zadanie go nie potrzebuje.

Czy mogę użyć jednego modelu, żeby było prościej?#

Można, ale rzadko się to opłaca. Jeden model do wszystkiego oznacza przepłacanie mocą za proste zadania i kompromisy jakości przy trudnych. Router z kilkoma modelami jest tańszy i pewniejszy, a złożoność bierze na siebie warstwa, nie Ty.