为什么大型语言模型在视频游戏中表现如此糟糕?
大型语言模型(LLMs)迅速改善,基准测试本身也随之发展,增加了更多复杂的问题以挑战最新的模型。然而,LLMs并未在所有领域都有所改善,而有一项任务仍然远远超出它们的能力:它们完全不知道如何玩视频游戏。尽管有少数模型成功通关了一些游戏(例如,Gemini 2.5 Pro在2025年5月击败了精灵宝可梦蓝版),但这些例外证明了这个规则。最终胜利的人工智能完成游戏的速度远远低于典型的人类玩家,犯了一些奇怪且重复的错误,并且需要自定义软件来引导它们与游戏的互动。纽约大学游戏创新实验室的主任、AI游戏测试公司Modl.ai的联合创始人朱利安·托格利斯在最近的一篇论文中探索了LLMs在视频游戏中限制的意义。他与《IEEE Spectrum》讨论了这种缺乏视频游戏技能可以告诉我们关于2026年AI整体状态的内容。 LLMs在编码方面迅速提升,而你的论文将编码框架为一种良性互动的游戏。你是什么意思?朱利安·托格利斯:编码在某种意义上是非常良好的,因为你有任务。这些就像关卡。你会得到一个规范,你编写代码,然后你运行它。奖励是立即且细致的。代码必须编译、必须顺利运行,然后它通常还必须通过测试。通常,还会有解释说明它为何失败。有一个来自游戏设计师拉夫·科斯特的理论,认为游戏之所以有趣是因为我们在玩的时候学会了如何玩。从这个角度来看,编写代码是一个精心设计的游戏。事实上,编写代码是许多人享受的事情。与编码不同,LLMs在视频游戏方面表现不佳。这让人感到惊讶,因为它们在编码以及如国际象棋和围棋等游戏中都取得了成功。是什么使得视频游戏成为一个问题?托格利斯:不仅仅是LLMs在这方面表现糟糕。我们没有通用的游戏AI。普遍的看法是,因为我们可以构建能很好地玩特定游戏的AI,所以我们应该能够构建能够玩任何游戏的AI。我不确定我们会达到这个目标。人们常提到谷歌的AlphaZero(这并不是一个LLM)可以同时玩围棋和国际象棋。然而,它必须为每个游戏重新训练和重新设计。而这些游戏在输入和输出空间上是相似的。大多数游戏之间差异更大,它们具有不同的机制和不同的输入表示。还有一个数据问题。一些AI能够成功玩耍的游戏,如Minecraft和精灵宝可梦,是世界上研究得最透彻的游戏之一,实际上有数百万小时的指南。而对于名气较小的游戏,就很少有这样的信息。 LLM性能的视频游戏基准测试 似乎有一个因素有助于LLMs在编码方面的提升,那就是基准测试的激增。我们有许多LLMs可以尝试解决的基准,可以为结果打分,然后调整LLM以提高性能。然而,开发用于玩视频游戏的基准测试,则不那么明确。为什么会这样?托格利斯:多年来,我已经构建了许多基于游戏的AI基准。其中一个,通用视频游戏AI竞赛,进行了七年。我们在我们的公开可用游戏中测试了一个智能体,每次进行竞赛时,我们都发明了10款新游戏进行测试。我们停止的一个原因是我们停止看到进展。智能体在某些游戏中变得更好,但在其他游戏中变得更糟。这是在LLMs之前。最近,我们一直在为LLMs更新这个框架。它们失败了。它们真的非常糟糕。所有的LLMs。它们甚至不如一个简单的搜索算法做得好。为什么?它们从未在这些游戏上进行训练,并且它们在空间推理上非常差。这不应该让人惊讶,因为这也不在训练数据中。这引出了一个看似矛盾的事实。LLMs玩游戏表现很差。然而,与此同时,它们在编码——一项可以用来创建游戏的技能——方面却在迅速提升。这些事实是如何结合在一起的?托格利斯:这很奇怪。你可以进入Cursor或Claude,写一个提示,并得到一个可以玩的游戏。这个游戏会很典型,因为LLM的代码编写能力在某种事物越典型时越好。所以,如果你让它给你一款像《小行星》的游戏,它会奏效。这很令人印象深刻。然而,它不会给你一个好的或新颖的游戏。这似乎确实奇怪。原因在于LLM无法玩这个游戏。游戏开发是一个迭代过程。你编写,测试,调整游戏手感。LLM无法做到这一点。在某种程度上,我认为在设计其他软件时也没有什么不同。是的,你可以要求LLM创建一个带有一堆按钮的GUI。但是LLM对如何使用它知之甚少。像英伟达和谷歌这样的公司已经谈到使用模拟,包括类游戏环境,以提高AI性能。如果AI无法精通游戏,关于未来的乐观情绪应有多大?
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡