Забудьте про бенчмарки: где на самом деле искать честный рейтинг нейросетей
Вы когда-нибудь задумывались, почему в официальных тестах каждая вторая нейросеть — «убийца GPT-4», а на деле она не может связать двух слов в коде? Ответ прост: современные бенчмарки превратились в маркетинговую шелуху, под которую разработчики просто подгоняют ответы своих моделей.
Если вы устали от дутых цифр и хотите знать, какие модели реально «тащат» задачи в продакшене, пора сменить фокус. В этой статье я расскажу, почему даже популярная LM-Arena — это не истина в последней инстанции, и где найти статистику, за которую люди голосуют собственным кошельком.
Почему классические рейтинги больше не работают?
Проблема большинства тестов в том, что они синтетические. Разработчики знают вопросы, которые будут в бенчмарках, и обучают модели так, чтобы те выдавали идеальный результат именно на этих тестах. Это как зубрить билеты к экзамену, не понимая предмета: оценка «отлично», а знаний ноль.
Даже LM-Arena, при всей её объективности (слепое тестирование пользователями), иногда грешит субъективностью. Пользователи могут выбирать модель за «вежливость» или красивое оформление текста, а не за точность фактов. Настоящий же рейтинг рождается там, где бизнес и разработчики используют нейросети через API для реальных задач. И это место — OpenRouter.
OpenRouter как зеркало реальности: рейтинг «по токенам»

Самый честный бенчмарк — это количество использованных токенов за неделю. На OpenRouter есть вкладка «Models», где можно выставить фильтр Top Weekly. Здесь нет места накруткам: вы видите сухую статистику того, сколько миллиардов токенов «прогнали» через конкретную модель реальные пользователи и компании.
Это рейтинг «цена-качество» в чистом виде. Если модель плохая, её не будут использовать массово, потому что за каждый запрос капает денежка. Давайте разберем текущих лидеров и поймем, что сейчас в тренде.
Лидеры в программировании и технологиях
На текущий момент на первом месте неожиданно закрепилась grok-code-fast-1. Только вдумайтесь: более 524 миллиардов токенов за неделю! Почему она в топе, обгоняя именитых гигантов?
- Цена: Она стоит копейки по сравнению с флагманами.
- Скорость: Выдача кода происходит мгновенно.
- Эффективность: Программисты используют её как рабочую лошадку для написания простых функций и рефакторинга.
Сразу за ней идет Claude 4.5 Sonnet. У неё около 400 миллиардов токенов. Несмотря на то, что Claude в десятки раз дороже предыдущей модели, она держит второе место в категории «Программирование» и первое в категории «Технологии». Это говорит о том, что для сложных архитектурных задач люди готовы платить больше — качество этой модели пока остается непревзойденным.
Короли SEO, маркетинга и контента
Если ваша задача — писать статьи или заниматься продвижением, обратите внимание на Gemini 2.5 Flash. В общем зачете она на третьем месте (391 млрд токенов), но посмотрите на её специализацию в рейтинге OpenRouter:
- Здоровье: 1 место (видимо, из-за огромного контекстного окна, куда можно загрузить целую медкарту).
- SEO и Маркетинг: 2 и 3 места соответственно.
Gemini Flash — идеальный инструмент для SEO-специалиста. Она дешевая, быстрая и позволяет «скармливать» себе огромные массивы данных для анализа. А вот для написания текстов «с душой» или сложных научных работ люди часто выбирают DeepSeek V3.2, которая лидирует в категории RolePlay и занимает высокие позиции в академических запросах.
Бесплатный сыр и новые игроки
Интересный феномен — Xiaomi MiMo V2 Flash. Она ворвалась в топ-5 с результатом 333 миллиарда токенов. Секрет успеха прост: пока она бесплатная. Её активно тестируют в маркетинге и финансах (1-е места в категориях). Будет любопытно взглянуть на неё, когда за токены придется платить — тогда мы и увидим её реальную ценность.
Также стоит присмотреться к Gemini 3 Flash (Preview). Она занимает первое место в категории «Наука» и восьмое в переводах (Translations). Это подтверждает, что для глубокой аналитики и точной локализации Google всё еще удерживает сильные позиции.
Не только модели: какие приложения правят миром ИИ?

На OpenRouter есть еще одна бесценная вкладка — Rankings, а внутри неё раздел Top Apps. Это список приложений, через которые люди чаще всего обращаются к нейросетям. Если вы не знаете, какой софт использовать для работы, просто посмотрите на этот топ:
- Kilo Code: Абсолютный лидер, AI-агент для VS Code. Через него проходит безумные 2.45 триллиона токенов в месяц. Это главный инструмент современных «кодеров на стероидах».
- Cline: Еще один мощный кодовый агент (1.19 трлн токенов). Если вам не зашел первый вариант, этот — прямой конкурент с огромной аудиторией.
- BlackboxAI: Позиционируется как агент для строителей приложений. Третье место и более 1 триллиона токенов подтверждают его профпригодность.
Итоги: как выбирать нейросеть в 2025 году?
Хватит смотреть на красивые графики в пресс-релизах. Если вам нужна модель для работы, делайте три простых шага:
- Зайдите на OpenRouter в раздел моделей.
- Отфильтруйте по Top Weekly.
- Найдите свою категорию (SEO, Programming, Legal) и посмотрите, за что коллеги по цеху платят реальные деньги.
Помните: миллиарды использованных токенов не могут лгать. Если модель находится в топе использования при высокой цене — она гениальна. Если она в топе при низкой цене — это лучший выбор для автоматизации рутины. Все остальное — просто шум.
Используйте правильные инструменты, следите за реальными рейтингами и не давайте маркетинговым обещаниям вводить вас в заблуждение. Удачи в экспериментах!