Просто о сложном

Платформа AI Benchmarking помогает топовым компаниям подтасовывать результаты своих моделей

24 мая, 19:13

Исследователи обвинили ведущую платформу для тестирования искусственного интеллекта (ИИ) в предвзятости. LM Arena, популярный бенчмарк для сравнения языковых моделей (LLM), якобы предоставляет крупным технологическим корпорациям несправедливые преимущества перед открытыми альтернативами. Ученые изучили 2,8 миллиона тестовых «сражений» между моделями и пришли к выводу, что система работает в пользу коммерческих решений.

Как устроен LM Arena и почему его обвиняют в манипуляциях

LM Arena, ранее известная как Chatbot Arena, была создана в 2023 году исследователями из Калифорнийского университета в Беркли. Платформа позволяет пользователям сравнивать ответы двух анонимных ИИ-моделей на один и тот же запрос, выбирая лучший вариант. Результаты формируют рейтинг, который считается одним из ключевых показателей эффективности LLM.

«Координация между несколькими поставщиками и предвзятая политика LM Arena в их пользу подрывают научную достоверность рейтингов», — заявили авторы исследования.

Анализ данных за пять месяцев показал, что флагманские модели OpenAI, Google, Meta и Amazon получали до 20% всех тестовых данных, тогда как 83 открытые модели в совокупности — лишь 29,7%. Кроме того, коммерческие LLM проходили многократное тестирование до официального релиза, что позволяло их разработчикам отбирать лучшие версии для финального рейтинга.

Неравные условия: как крупные игроки «переобучают» свои модели

Исследователи обнаружили, что Meta протестировала 27 различных версий Llama-4 перед релизом. При этом:

  • Закрытые модели участвовали в боях чаще, чем открытые.
  • Компании могли удалять неудачные результаты тестов.
  • В публичный рейтинг попадала только лучшая версия LLM.

Такая практика, по мнению ученых, позволяет корпорациям «переобучать» модели под конкретные тесты, искусственно завышая их позиции. Это не обязательно означает, что их ИИ лучше — просто он оптимизирован под условия бенчмарка.

Ответ LM Arena и дальнейшие перспективы

Представители платформы отвергли обвинения, заявив, что все запросы на тестирование обрабатываются одинаково. В официальном ответе в X они отметили:

«Если один поставщик отправляет больше тестов, чем другой, это не означает несправедливости. Каждая компания сама решает, как использовать данные».

Однако исследователи настаивают, что текущая система требует пересмотра. С ростом мощности ИИ традиционные методы оценки, включая тест Тьюринга, устаревают. Ученые предлагают разработать более прозрачные и объективные стандарты тестирования.