尽管围绕人工智能的讨论不断,甚至最先进的视觉语言模型——GPT-4o、Claude Sonnet 3.7 和 Gemini 2.5 Pro——在应对一个长达数十年的挑战时仍然举步维艰:玩经典的第一人称射击游戏《毁灭战士》。
本周四,一个新的研究项目推出了VideoGameBench,这是一个旨在测试最先进的视觉语言模型是否能够仅通过屏幕上看到的内容来玩并击败20款热门视频游戏的AI基准测试。
研究人员表示:“根据我们的经验,目前最先进的视觉语言模型在玩视频游戏时面临显著的困难,因为推理延迟较高。当一个代理截取屏幕截图并询问视觉语言模型该采取什么行动时,等到回应回来时,游戏状态已经发生了重大变化,行动不再相关。”
研究人员指出,他们选择经典的Game Boy和MS-DOS游戏是因为它们的视觉效果更简单且输入方式多样,如鼠标和键盘或游戏控制器,这样更能测试视觉语言模型的空间推理能力,而不是基于文本的游戏。
VideoGameBench由计算机科学家和AI研究员Alex Zhang开发。该游戏套件包括《魔兽争霸 II》、《帝国时代》和《波斯王子》等经典游戏。
研究人员表示,延迟响应在《毁灭战士》等第一人称射击游戏中问题最为严重。在这些快节奏的环境中,屏幕截图中可见的敌人可能在模型采取行动时已经移动——甚至已经到达玩家身旁。
对于软件开发者而言,《毁灭战士》长期以来一直作为游戏环境中技术能力的检验标准。割草机、比特币甚至人类肠道细菌都以不同的成功程度面对来自地狱的恶魔。现在轮到AI了。
麻省理工学院生物技术研究员Lauren Ramlan曾对Decrypt表示:“将《毁灭战士》从90年代的阴影中带入现代光明的,不是它引人入胜的游戏玩法,而是其吸引人的计算设计。基于id Tech 1引擎,这款游戏的设计只需最简单的设置即可进行游戏。”
除了在理解游戏环境方面存在困难外,这些模型通常还未能执行基本的游戏内动作。
研究人员表示:“我们观察到代理在理解其动作——例如向右移动——如何在屏幕上转化时经常遇到困难。我们测试的所有前沿模型中,最一致的失败是无法在《文明》和《魔兽争霸 II》这类游戏中可靠地控制鼠标,而在这些游戏中,精确和频繁的鼠标移动是至关重要的。”
为了更好地理解当前AI系统的局限性,VideoGameBench强调在动态和复杂的环境中评估其推理能力的重要性。
他们表示:“与未解决的数学证明和奥林匹克级数学问题等极其复杂的领域不同,玩视频游戏并不是超人类的推理任务,但模型仍然很难解决这些问题。”
编辑:Andrew Hayward