4 wpisów
Jak ewaluować system RAG end-to-end w 2026: recall@k i precyzja dla retrievalu, faithfulness i atrybucja źródeł, budowa golden setu oraz offline kontra online.
Jak ocenić jakość modelu embeddingów na własnych danych w 2026 roku: recall@k, MRR, nDCG, budowa golden setu oraz pułapki ewaluacji offline i online.
LLM-as-a-judge w 2026: kiedy automatyczna ocena jakości działa, jakie błędy systematyczne wbudowuje i jak skalibrować sędzię, zanim powierzysz mu decyzje produkcyjne.
Jak panować nad zmianami w systemie AI w 2026: wersjonowanie promptów i modeli, testy regresji na golden secie, bezpieczna aktualizacja, dziennik i rollback.