В России появилась первая независимая платформа на русском языке для оценки качества больших языковых моделей на основе пользовательских задач – LLM Arena. Создателями платформы стали Роман Куцев в коллаборации с экспертами по нейросетям и бывшими разработчиками TrainingData.ru.

Рейтинг показывает, как генеративные нейросети справляются с реальными задачами пользователей.

Здесь можно в реальном времени тестировать нейросети и оценивать качество их ответов в соответствии с запросом:

► Для сравнения пользователю предлагаются две случайные модели (он не знает, какие)

► Человек пишет любой запрос, сравнивает ответы моделей и выбирает тот, который считает лучшим

► На основе оценок формируется рейтинг генеративных нейросетей на русском языке

Сейчас пользователям платформы доступна для тестирования 21 наиболее популярная генеративная нейросеть, среди которых есть ChatGPT, LLaMa, YandexGPT, GigaChat Saiga). Список регулярно пополняется: новые модели смогут добавить и их разработчики.


Наша цель — создать объективный, открытый и актуальный рейтинг языковых моделей на русском языке. Даже несмотря на то, что в мире появляется все больше бенчмарков, позволяющих сравнивать модели, протестировать российские LLM на родном языке на реальных пользовательских задачах очень сложно.

Та же LMSYS Chatbot Arena не предоставляет доступ ни к одной российской нейросети. Поэтому нам и пришла в голову идея создать собственную платформу, чтобы пользователи могли сами сравнивать российские и иностранные генеративные нейросети и делать собственные выводы.

— Роман Куцев, основатель LLM Arena, выпускник ВМК МГУ, бывший СТО TrainingData.ru

В будущем можно будет сравнивать ответы нейросетей по мультимодальным задачам. К примеру, оценить, насколько хорошо модель понимает, что изображено на картинке, или то, как качественно сгенерирована картинка по запросу.

LLM Arena создана по открытой лицензии и работает по принципу одного из самых популярных рейтингов LMSYS Chatbot Arena.

Источник