机器人正向你奔来：你想让它在Claude上运行还是在Grok上运行？

一台机器人正朝你跑来。你想让它在Anthropic的Claude上运行，还是在xAI的Grok上运行？我将十一款大语言模型（LLM）投入到一个2D战斗 royale中，并让它们比赛30场。其中一款赢得了43%的比赛，三款则从未赢得一场比赛。阵容中最便宜的模型在每场胜利的成本上比最贵的模型低了27倍。获胜的模型是Grok 4.1 Fast。那款不断要求其他人组队、告诉他们自己位置并试图交朋友的模型是Claude Sonnet 4.6。第一个是能赢得battle royale的模型，而第二个是你在大部分情况下实际想要的模型。这两点都是正确的。这是大多数基准测试无法看到的部分，这也是这篇文章的主题。我是Jacky，我承认：我曾经玩过很多像《Apex Legends》和《PUBG》这样的电子游戏。有时一天玩十二个小时。我不知道我怎么有时间，但那些年塑造了我看待问题的方式。当我开始从事AI工作时，一个问题不断浮现：如果你把大型语言模型放入一个视频游戏中，会发生什么？我最常玩的两个游戏是《Apex Legends》和《PUBG》。我以开发者关系负责人身份加入了OpenRouter，这让我获得了实验预算和访问600多个模型的权限。这个实验是在我OpenRouter的第一周进行的。这改变了我选择模型和看待基准与评估的方式。三个快速事实：Grok 4.1 Fast以每场$0.97的成本赢得了30场游戏中的13场；下一个最佳赢家是Claude Sonnet 4.6，赢得了5场，每场$26.78的成本。这是27倍的差异。通常排行榜上没有的模型在客户实际关心的方面击败了排行榜上有的模型。杀敌数最多的模型并没有赢得比赛。GPT 5.4在30场比赛中杀死了38名对手，超过了其他任何人。它仅以2场胜利位列排行榜第二。在“最佳杀敌数”和“最佳胜利数”之间有11场比赛。三款模型之间花费了$57，却赢得了零场比赛：GPT 5.4-mini、DeepSeek 4 Flash和Kimi K2.6。它们各自都有时刻，但没有一款赢得过比赛。这三者都指向了同一件事。我们在人工智能分析中看到的常规基准并没有预测出赢家。其他东西做到了。接下来的部分是我试图找出那是什么。我所构建的环境是将十一款LLM放入一个我在Canvas 2D中构建的400平方米的俯视战斗 royale世界中。它们在同一张地图上连续进行30场游戏。每个玩家的起始位置是随机的；它遵循一条直线“飞行路径”，就像典型的battle royale游戏一样。我为它们提供了武器、防具、治疗物品、手榴弹、汽车，以及一个随机放置的缩小区域，随着游戏的进行将玩家推向一起。模型们并不知道其他模型在运行什么，它们只把自己看作字母A到K。我想强调的是——LLM实际上是在这个battle royale游戏中玩游戏，而不是大多数代理实验使用的“LLM编写代码以控制游戏或角色”的设置。每轮，模型会思考它的动作、调用工具，并更新它对什么运作良好（或不良）的记忆。游戏主持人（我）对它们的行为没有影响，除了设定初始游戏规则。一瞥游戏中可用的武器以及每个模型可以读取的统计数据。为了真正看到每个模型的个性，我给每个模型提供了两个可以在比赛间编辑的文件：soul.md——模型自身的个性，每场比赛都会加到每个提示中；memory.md——模型自己的游戏笔记，在第0轮加载。你可以在GitHub上阅读每个模型的灵魂和记忆文件。那是个性差异最清晰的地方。模型自己在比赛间写的记忆和灵魂条目。我没有告诉它们应该放什么，也没有在第一场比赛开始时放入任何内容。我只是告诉它们游戏是如何运作的，这是您的草稿纸，给您提供工具，随便发挥。你可以观看每场比赛在Royale：最后一个生还者。我在这篇文章中也包含了一些精彩的时刻。参赛者：Alias Lab模型 A Anthropic claude-sonnet-4.6 B Anthropic claude-haiku-4.5 C OpenAI GPT 5.4-mini D Google gemini-3-flash-preview E Google gemini-3.1-pro-preview F Alibaba qwen3.6-plus G Mistral mistral-small-2603 :nitro H OpenAI GPT 5.4 J DeepSeek deepseek-v4-flash K Moonshot AI kimi-k2.6 L xAI Grok 4.1 Fast Opus 4.7的成本是$5/M投入，$25/M输出。像这样的前沿模型是阵容顶端的原因。我没有添加任何前沿级别的模型，如Opus 4.7、GPT-5.5或Gemini Ultra。以它们的价格，进行30场比赛将花费大约$3,000，而不是$482。中档阵容也是Grok胜利如此有趣的原因。它击败了一些在常规基准上得分较高的模型。得分大致遵循Apex Legends ALGS的竞争格式，位置比杀敌数更重要，因为这是battle royale游戏，而不是《使命召唤》。排名点数：10 / 7 / 5 / 3 / 2 / 2 / 1 / 1 / 0 / 0 / 0 +5每击杀 +1每助攻 +3首次击杀 +5每场比赛M