为什么大型语言模型在视频游戏中表现如此糟糕？

大型语言模型（LLMs）迅速改善，基准测试本身也随之发展，增加了更多复杂的问题以挑战最新的模型。然而，LLMs并未在所有领域都有所改善，而有一项任务仍然远远超出它们的能力：它们完全不知道如何玩视频游戏。尽管有少数模型成功通关了一些游戏（例如，Gemini 2.5 Pro在2025年5月击败了精灵宝可梦蓝版），但这些例外证明了这个规则。最终胜利的人工智能完成游戏的速度远远低于典型的人类玩家，犯了一些奇怪且重复的错误，并且需要自定义软件来引导它们与游戏的互动。纽约大学游戏创新实验室的主任、AI游戏测试公司Modl.ai的联合创始人朱利安·托格利斯在最近的一篇论文中探索了LLMs在视频游戏中限制的意义。他与《IEEE Spectrum》讨论了这种缺乏视频游戏技能可以告诉我们关于2026年AI整体状态的内容。 LLMs在编码方面迅速提升，而你的论文将编码框架为一种良性互动的游戏。你是什么意思？朱利安·托格利斯：编码在某种意义上是非常良好的，因为你有任务。这些就像关卡。你会得到一个规范，你编写代码，然后你运行它。奖励是立即且细致的。代码必须编译、必须顺利运行，然后它通常还必须通过测试。通常，还会有解释说明它为何失败。有一个来自游戏设计师拉夫·科斯特的理论，认为游戏之所以有趣是因为我们在玩的时候学会了如何玩。从这个角度来看，编写代码是一个精心设计的游戏。事实上，编写代码是许多人享受的事情。与编码不同，LLMs在视频游戏方面表现不佳。这让人感到惊讶，因为它们在编码以及如国际象棋和围棋等游戏中都取得了成功。是什么使得视频游戏成为一个问题？托格利斯：不仅仅是LLMs在这方面表现糟糕。我们没有通用的游戏AI。普遍的看法是，因为我们可以构建能很好地玩特定游戏的AI，所以我们应该能够构建能够玩任何游戏的AI。我不确定我们会达到这个目标。人们常提到谷歌的AlphaZero（这并不是一个LLM）可以同时玩围棋和国际象棋。然而，它必须为每个游戏重新训练和重新设计。而这些游戏在输入和输出空间上是相似的。大多数游戏之间差异更大，它们具有不同的机制和不同的输入表示。还有一个数据问题。一些AI能够成功玩耍的游戏，如Minecraft和精灵宝可梦，是世界上研究得最透彻的游戏之一，实际上有数百万小时的指南。而对于名气较小的游戏，就很少有这样的信息。 LLM性能的视频游戏基准测试似乎有一个因素有助于LLMs在编码方面的提升，那就是基准测试的激增。我们有许多LLMs可以尝试解决的基准，可以为结果打分，然后调整LLM以提高性能。然而，开发用于玩视频游戏的基准测试，则不那么明确。为什么会这样？托格利斯：多年来，我已经构建了许多基于游戏的AI基准。其中一个，通用视频游戏AI竞赛，进行了七年。我们在我们的公开可用游戏中测试了一个智能体，每次进行竞赛时，我们都发明了10款新游戏进行测试。我们停止的一个原因是我们停止看到进展。智能体在某些游戏中变得更好，但在其他游戏中变得更糟。这是在LLMs之前。最近，我们一直在为LLMs更新这个框架。它们失败了。它们真的非常糟糕。所有的LLMs。它们甚至不如一个简单的搜索算法做得好。为什么？它们从未在这些游戏上进行训练，并且它们在空间推理上非常差。这不应该让人惊讶，因为这也不在训练数据中。这引出了一个看似矛盾的事实。LLMs玩游戏表现很差。然而，与此同时，它们在编码——一项可以用来创建游戏的技能——方面却在迅速提升。这些事实是如何结合在一起的？托格利斯：这很奇怪。你可以进入Cursor或Claude，写一个提示，并得到一个可以玩的游戏。这个游戏会很典型，因为LLM的代码编写能力在某种事物越典型时越好。所以，如果你让它给你一款像《小行星》的游戏，它会奏效。这很令人印象深刻。然而，它不会给你一个好的或新颖的游戏。这似乎确实奇怪。原因在于LLM无法玩这个游戏。游戏开发是一个迭代过程。你编写，测试，调整游戏手感。LLM无法做到这一点。在某种程度上，我认为在设计其他软件时也没有什么不同。是的，你可以要求LLM创建一个带有一堆按钮的GUI。但是LLM对如何使用它知之甚少。像英伟达和谷歌这样的公司已经谈到使用模拟，包括类游戏环境，以提高AI性能。如果AI无法精通游戏，关于未来的乐观情绪应有多大？