4 дописів
Як оцінювати систему RAG end-to-end у 2026 році: recall@k та точність для ретрівалу, faithfulness та атрибуція джерел, побудова golden set та offline проти online.
Як оцінити якість моделі ембедінгів на власних даних у 2026 році: recall@k, MRR, nDCG, створення golden set та пастки офлайн та онлайн оцінки.
LLM-as-a-judge у 2026: коли автоматична оцінка якості працює, які систематичні помилки вона містить і як калібрувати суддю, перш ніж довірити йому продуктові рішення.
Як керувати змінами в системі AI у 2026 році: версіонування промптів і моделей, регресійні тести на golden set, безпечне оновлення, журнал змін і відкат.