Як підібрати модель AI під задачу (а не під моду)

Найчастіше питання звучить так: «Яка модель AI найкраща?». Це неправильне питання — як «яка машина найкраща?» без уточнення, чи возиш цемент, чи змагаєшся на треку. Краще питання: яка модель для цієї конкретної задачі, за моїх витрат і моїх даних?

Немає однієї найкращої моделі#

Моделі відрізняються профілем, а не «інтелектом загалом». Одна починає відповідь за 0,4 с, але менша. Інша має вікно контексту на мільйон токенів, але відповідає повільно. Третя чудово пише код, але погано резюмує. Вибір «однієї на все» означає, що за прості задачі переплачуєш потужністю, а при складних бракує якості.

Тому ми не ставимо на одну модель, а на роутер, який має у розпорядженні цілу флотилію й підбирає з неї інструмент під проблему.

Починай із задачі, а не з моделі#

Спочатку назви задачу, потім підбери клас моделі. На практиці вистачає кількох категорій:

Спілкування / асистент на знаннях — модель instruct з хорошим балансом якості та латентності.
Міркування — модель «мисляча» (див. нижче), запускається свідомо там, де важлива точність рішень.
Код — модель, спеціалізована на програмуванні; важлива пропускна здатність, бо відповіді бувають довгими.
Швидкі / дешеві / класифікація — маленька, блискавична модель для роутингу намірів, тегування, екстракції полів.
Візія — мультимодальна модель, яка розуміє зображення й текст разом.
Резюмування — не-«мисляча» модель, яка конденсує, а не філософствує.

Цю мапу задача→модель підтримуємо як конкретну матрицю роутингу — кожна задача має основну й запасну модель. Дивись, яка модель що обслуговує, в атласі моделей, а як складаємо їх у готові системи — у розділі як це будуємо.

Назва вводить в оману — міряй#

Назви моделей натякають на швидкість і якість, яких немає. «Flash», «pro», «large» — це маркетинг, а не вимір. З наших власних вимірів: модель із «flash» у назві може видавати 0,6 токена на секунду (дуже повільно), а велика модель «671B» — 4,5 токена на секунду, тобто в кілька разів швидше. Якби ми довіряли назві, обрали б навпаки.

Тому кожну модель підбираємо за виміром: час до першого токена (TTFT), пропускна здатність (токени/с), реальне вікно контексту й те, чи модель взагалі повертає контент у даному режимі. Цифри на сторінках моделей походять із живого роутера, а не з каталогів.

Чи модель «витягне» — перевір на golden-set#

Технічні метрики (TTFT, токени/с, вікно контексту) кажуть, чи модель швидка й стабільна, але не чи вона змістовно добра для твоєї задачі. Щоб це розв'язати, побудуй golden-set: кілька десятків репрезентативних випадків із твоїх даних плюс чітку метрику прийняття (напр., влучність відповіді з цитатою, коректність екстракції полів). Модель кваліфікується як «витягне» лише тоді, коли пройде цю браму — і ту саму браму повторюєш при кожній зміні моделі, щоб виловити регресію. Як це міряти, описуємо в оцінюванні AI-агента та в нашій методиці.

Моделі «мислячі» (thinking) — коли варто#

Частина сучасних моделей — це моделі «мислячі»: перш ніж відповісти, ведуть внутрішнє міркування. Це потужно для складних рішень — і дорого та повільно для простих. Що гірше, увімкнені «на силу» в звичайному чаті можуть спалити весь бюджет на міркування й повернути порожню відповідь.

Правило просте: режим міркування вмикай лише для задач, які його справді потребують (аналіз, планування кроків агента, складні вибори). Для спілкування, перекладів, коду й резюмування тримай його вимкненим — швидше, дешевше й з гарантією контенту. Роутер робить це за тебе автоматично.

Витрати й дані теж обирають модель#

Підбір — це не лише якість:

Витрати — хмара рахує час роботи GPU, тому повільніша або більша модель — дорожча відповідь. Порядок величини з наших власних вимірів: той самий вивід, порахований малою моделлю (близько 59 ток/с), постає приблизно в 13× швидше, ніж флагманською (близько 4,5 ток/с) — тобто займає приблизно в 13× менше часу GPU, а отже коштує пропорційно менше. Найдешевша модель, яка витягне задачу, перемагає.
Чутливі дані — якщо обробляєш регульовані дані (GDPR), частину обробки тримай локально: ембедінги рахуй у себе, а PII маскуй, перш ніж щось піде в хмару. Маскування зменшує ризик, але про повну відповідність вирішують також правова підстава, місце обробки (передавання за межі ЄЕП) та договір про обробку даних із постачальником — а при особливо чутливому контенті (договори, медичні дані) чутливим буває сам контекст, а не лише імена. Як це налаштувати, обговорюємо в self-hosted LLM і GDPR.
Надійність — окрема модель буває тимчасово перевантажена; тому кожна задача має ланцюжок запасних, а не одну точку відмови.

Невелика таблиця рішень#

Твоя проблема	Клас моделі	Що важливе найбільше
Клієнти не знаходять відповіді	спілкування + RAG	якість, природність, цитати
Потрібно ухвалити складне рішення	міркування (thinking)	точність, вікно контексту
Генерація / рефакторинг коду	код	пропускна здатність, довгий вивід
Роутинг, тегування, екстракція	швидка / мала	TTFT і токени/с, низька вартість
Аналіз фото, документів	візія (мультимодальна)	розуміння зображення + тексту
Скорочення довгих текстів	резюмування	швидкість, відсутність «філософствування»
Чи цієї моделі достатньо?	будь-який клас	результат на golden-set + метрика прийняття

Якщо хочеш пройти це з конкретикою для свого випадку, маємо інтерактивний підбір стеку — кілька питань і рекомендація шарів, включно з моделями.

Спробуй наживо#

Наведений нижче приклад запускає модель через наш безпечний sandbox — той самий, що й у playground: PII масковані, нульове зберігання, ті самі ліміти. Задай питання про підбір моделі й побач відповідь.

▶Запитай про підбір моделіsandbox · reasoning

FAQ#

Яка модель AI найкраща для компанії?#

Жодна окрема. Найкращий — роутер, який для кожної задачі підбирає найдешевшу модель, що її витягне — спілкування, міркування, код, візія й резюмування мають різні профілі, тому й різні моделі. Вибір «однієї на все» або переплачує за прості задачі, або не вистачає на складні.

Як зрозуміти, що модель пасує до задачі?#

За виміром, а не за назвою. Перевір час до першого токена, пропускну здатність (токени/с), реальне вікно контексту й чи модель повертає контент у даному режимі. Назви типу «flash» чи «large» бувають оманливими — трапляється, що «flash» повільніший за велику модель.

Коли використовувати моделі «мислячі» (reasoning)?#

Лише для задач, які справді потребують міркування — аналіз, планування, складні рішення. Для спілкування, перекладів і резюмування режим міркування вимикай: він повільніший, дорожчий і може повернути порожню відповідь, якщо задача його не потребує.

Чи можна використовувати одну модель, щоб було простіше?#

Можна, але рідко це вигідно. Одна модель на все означає переплату потужністю за прості задачі й компроміси якості при складних. Роутер з кількома моделями дешевший і надійніший, а складність бере на себе шар, а не ти.

Немає однієї найкращої моделі#

Починай із задачі, а не з моделі#

Спочатку назви задачу, потім підбери клас моделі. На практиці вистачає кількох категорій:

Спілкування / асистент на знаннях — модель instruct з хорошим балансом якості та латентності.
Міркування — модель «мисляча» (див. нижче), запускається свідомо там, де важлива точність рішень.
Код — модель, спеціалізована на програмуванні; важлива пропускна здатність, бо відповіді бувають довгими.
Швидкі / дешеві / класифікація — маленька, блискавична модель для роутингу намірів, тегування, екстракції полів.
Візія — мультимодальна модель, яка розуміє зображення й текст разом.
Резюмування — не-«мисляча» модель, яка конденсує, а не філософствує.

Назва вводить в оману — міряй#

Чи модель «витягне» — перевір на golden-set#

Моделі «мислячі» (thinking) — коли варто#

Витрати й дані теж обирають модель#

Підбір — це не лише якість:

Витрати — хмара рахує час роботи GPU, тому повільніша або більша модель — дорожча відповідь. Порядок величини з наших власних вимірів: той самий вивід, порахований малою моделлю (близько 59 ток/с), постає приблизно в 13× швидше, ніж флагманською (близько 4,5 ток/с) — тобто займає приблизно в 13× менше часу GPU, а отже коштує пропорційно менше. Найдешевша модель, яка витягне задачу, перемагає.
Чутливі дані — якщо обробляєш регульовані дані (GDPR), частину обробки тримай локально: ембедінги рахуй у себе, а PII маскуй, перш ніж щось піде в хмару. Маскування зменшує ризик, але про повну відповідність вирішують також правова підстава, місце обробки (передавання за межі ЄЕП) та договір про обробку даних із постачальником — а при особливо чутливому контенті (договори, медичні дані) чутливим буває сам контекст, а не лише імена. Як це налаштувати, обговорюємо в self-hosted LLM і GDPR.
Надійність — окрема модель буває тимчасово перевантажена; тому кожна задача має ланцюжок запасних, а не одну точку відмови.

Невелика таблиця рішень#

Твоя проблема	Клас моделі	Що важливе найбільше
Клієнти не знаходять відповіді	спілкування + RAG	якість, природність, цитати
Потрібно ухвалити складне рішення	міркування (thinking)	точність, вікно контексту
Генерація / рефакторинг коду	код	пропускна здатність, довгий вивід
Роутинг, тегування, екстракція	швидка / мала	TTFT і токени/с, низька вартість
Аналіз фото, документів	візія (мультимодальна)	розуміння зображення + тексту
Скорочення довгих текстів	резюмування	швидкість, відсутність «філософствування»
Чи цієї моделі достатньо?	будь-який клас	результат на golden-set + метрика прийняття

Спробуй наживо#

▶Запитай про підбір моделіsandbox · reasoning