放松，你在玩《毁灭战士》方面仍然优于人工智能

研究人员表示：“根据我们的经验，目前最先进的视觉语言模型在玩视频游戏时面临显著的困难，因为推理延迟较高。当一个代理截取屏幕截图并询问视觉语言模型该采取什么行动时，等到回应回来时，游戏状态已经发生了重大变化，行动不再相关。”

研究人员指出，他们选择经典的Game Boy和MS-DOS游戏是因为它们的视觉效果更简单且输入方式多样，如鼠标和键盘或游戏控制器，这样更能测试视觉语言模型的空间推理能力，而不是基于文本的游戏。

VideoGameBench由计算机科学家和AI研究员Alex Zhang开发。该游戏套件包括《魔兽争霸 II》、《帝国时代》和《波斯王子》等经典游戏。

研究人员表示，延迟响应在《毁灭战士》等第一人称射击游戏中问题最为严重。在这些快节奏的环境中，屏幕截图中可见的敌人可能在模型采取行动时已经移动——甚至已经到达玩家身旁。

对于软件开发者而言，《毁灭战士》长期以来一直作为游戏环境中技术能力的检验标准。割草机、比特币甚至人类肠道细菌都以不同的成功程度面对来自地狱的恶魔。现在轮到AI了。

麻省理工学院生物技术研究员Lauren Ramlan曾对Decrypt表示：“将《毁灭战士》从90年代的阴影中带入现代光明的，不是它引人入胜的游戏玩法，而是其吸引人的计算设计。基于id Tech 1引擎，这款游戏的设计只需最简单的设置即可进行游戏。”

除了在理解游戏环境方面存在困难外，这些模型通常还未能执行基本的游戏内动作。

研究人员表示：“我们观察到代理在理解其动作——例如向右移动——如何在屏幕上转化时经常遇到困难。我们测试的所有前沿模型中，最一致的失败是无法在《文明》和《魔兽争霸 II》这类游戏中可靠地控制鼠标，而在这些游戏中，精确和频繁的鼠标移动是至关重要的。”

为了更好地理解当前AI系统的局限性，VideoGameBench强调在动态和复杂的环境中评估其推理能力的重要性。

他们表示：“与未解决的数学证明和奥林匹克级数学问题等极其复杂的领域不同，玩视频游戏并不是超人类的推理任务，但模型仍然很难解决这些问题。”

编辑：Andrew Hayward

经过数月的猜测，OpenAI终于发布了GPT-5