Около месяца назад
LMSYS выпустили Copilot для VSCode, который помогает с программированием. Плагин выдает результаты нескольких языковых моделей, а пользователь выбирает лучшее. За первый месяц его скачали 2,5 тысячи раз.
Результаты показали, что Llama 3.1 обошла GPT-4o, а GPT-4o mini оказалась на последнем месте. Основные пользователи — разработчики на Python. Средняя длина контекста составила 560 токенов, что больше, чем в других тестах.
Такие реальные сценарии использования могут быть более показательными, чем традиционные бенчмарки.