Команда исследователей из Принстонского университета представила новый проект VideoGameBench — платформу для тестирования способностей нейросетей играть в видеоигры. Система позволяет мультимодальным языковым моделям (VLM) управлять персонажами в 20 различных играх — от классических шутеров до ролевых игр.
VideoGameBench работает по простому принципу: нейросеть получает только изображение с экрана игры и должна самостоятельно решить, какие кнопки нажимать. Никаких дополнительных подсказок или специального обучения модель не получает. Это имитирует ситуацию, когда человек впервые садится играть в незнакомую игру и пытается разобраться в ней с нуля.
Исследователи протестировали самые продвинутые нейросети: GPT-4o от OpenAI, Claude Sonnet 3.7 от Anthropic и Gemini 2.5 Pro от Google. Результаты оказались неожиданными — ни одна модель не смогла пройти даже первый уровень в большинстве игр.
Одна из главных проблем — задержка между получением кадра и ответом нейросети. За 3−5 секунд, которые требуются модели для анализа ситуации и принятия решения, игровая обстановка успевает кардинально измениться. Например, в шутере DOOM враг, который был далеко, успевает подойти вплотную и атаковать игрока.
Чтобы решить эту проблему, исследователи создали облегченную версию бенчмарка — VideoGameBench-Lite. В этом режиме игра приостанавливается на время «размышлений» нейросети, что позволяет моделям действовать в более комфортных условиях.
Набор игр в VideoGameBench охватывает различные жанры и платформы. Для компьютеров MS-DOS это шутеры (DOOM, DOOM II, Quake), стратегии (Civilization, Warcraft II, Age of Empires) и платформеры (Prince of Persia). Для портативной консоли Game Boy — Pokemon Red и Pokemon Crystal, The Legend of Zelda: Link’s Awakening, Super Mario Land и другие. Такое разнообразие позволяет всесторонне оценить способности нейросетей к пространственному мышлению и стратегическому планированию.
Даже в облегченном режиме VideoGameBench-Lite модели сталкиваются с серьезными трудностями. Исследователи выделили несколько ключевых проблем:
- Неверная интерпретация происходящего на экране. Например, в DOOM II нейросеть Claude Sonnet 3.7 продолжала стрелять по уже мертвым противникам, тратя впустую боеприпасы;
- Сложности с точным управлением. Модели не могут точно позиционировать курсор мыши в стратегиях вроде Warcraft II, что делает невозможным выбор нужных пунктов меню;
- Непонимание игровых механик. В Kirby’s Dream Land нейросеть GPT-4o дошла до первого мини-босса, но не поняла, что может поглотить бомбу и использовать ее способности для атаки.
Интересно, что в отличие от нейросетей, традиционные методы обучения с подкреплением (RL) уже давно научились проходить многие игры. Например, алгоритмы успешно справляются с играми Atari, а специализированные системы вроде AlphaStar от DeepMind превосходят людей в StarCraft II. Однако эти системы обучаются под конкретную игру и не способны переносить навыки на другие игры.
Преимущество нейросетей в их универсальности — теоретически одна модель может играть в любую игру без дополнительного обучения. Но пока этот потенциал не реализован на практике.
VideoGameBench — открытый проект, и исследователи приглашают сообщество присоединиться к разработке. Код платформы доступен на GitHub, что позволяет любому желающему протестировать свои алгоритмы или добавить новые игры в бенчмарк.
Эта инициатива открывает новые горизонты для исследований искусственного интеллекта. В отличие от сложных математических задач или программирования, видеоигры представляют собой понятную для человека среду, где можно наглядно оценить способности моделей к рассуждению, планированию и принятию решений в реальном времени.
Кстати, об играх: журналисты рассчитали наиболее вероятные сроки выхода игры Grand Theft Auto VI.
- Игры
- Искусственный интеллект
- Нейросети
Источник: hi-tech.mail.ru