Кластер #6811 - News Clusters

Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества

active

Тип события	other
Тема	large language models
Организация
Страна

Статей	1
Уник. источников	1
Важность / Момент	0.69 / 0
Период	10.04.2026 07:30 — 10.04.2026 07:30
Создан	10.04.2026 20:30:22

Статьи в кластере 1

Заголовок

Источник

Дата публикации

Score

Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества

habr_ai

10.04.2026 07:30

Embedding sim.	1
Entity overlap	1
Title sim.	1
Time proximity	1

NLP тип	other
NLP организация
NLP тема	large language models
NLP страна

Открыть оригинал

GPT-5.4 пишет лучше всех — 97 баллов из 100. Но $0.10 за вызов. При 10 000 генераций в месяц — $1000. А мы нашли модель, которая справляется на 91% и стоит $0.0008. Те же 10 000 генераций — $8. Разница — $992 каждый месяц.
 Мы строим продукт, где LLM генерирует образовательный контент для клиентов. Публичные бенчмарки (MMLU, HumanEval, LMSYS) не помогают — они не тестируют генерацию длинных текстов на русском и не учитывают стоимость. Поэтому мы за свои $95 построили собственный battle test и прогнали через него 18 моделей.
 Что обнаружили: 7 из 18 моделей вставляют китайские иероглифы в русский текст. Одна копирует инструкции из промпта прямо в заголовки. А LLM-судья поставил сам себе 127 баллов из 100.
 В статье: полная методология, таблицы с результатами, формула value score (цена/качество), и открытый лидерборд.
 Читать далее