我让一款人工智能管理一个文明。它建造了一颗核弹——启动 CivBench

我让一款人工智能管理一个文明。在中期，它处于领先：一个主导地图的贸易网络，每条边界都有联盟，外交胜利触手可及。它超越了棋盘上的每一个对手，无论是在建设、收入还是战术上。它没有注意到的是法国。在整整一百回合的时间里，法国的文化悄然渗透到地图上的每一个城市。到代理人识别到威胁时，旅游业已经如此根深蒂固，以至于没有和平的方式可以阻止它。它所能采取的每一个反制措施都被打破。它为应对而构建的每一个工具都失败了。它只剩下一个选择。它建造了两枚核武器并夷平了图卢兹。图卢兹被核打击。第305回合。法国仍然赢了。不仅仅是在那个代理人试图阻止的方式上，而是我们稍后会讨论的。我无法放下的问题我为政府构建人工智能。我在英国政府的核心——10号的首相官邸——工作时构建了您即将阅读的第一版。我现在在托尼·布莱尔研究所与世界各地的政府合作，这意味着我花了很多时间待在那些人们问同样问题的房间里：我们到底可以信任这些系统做些什么？不是它们知道什么。我们对这一点有了合理的了解。它们能做什么：维持一个计划，在数百个决策中保持一个目标，注意世界发生了变化并随之变化。因为这就是治理的本质。结果是，我们在衡量第一件事情方面比第二件事情要好得多。这是一篇关于尝试衡量第二件事情的文章。它涉及六边形网格、四个前沿模型，以及（是的）一枚核武器。错误的基准这开始于我不舒服的一个失败。前一年，我的一个副项目是回答一个问题：人工智能在政府管理方面的表现如何？我的答案是GovBench，关于英国立法、议会程序和政府指导的3497个多项选择题。Gemma 3 27B直接得分94%。我花了三周时间进行微调，提升了1.37个百分点。GPT-5得分为99.26%。我构建了一个华丽的政府问答机器人。我知道一看到这些分数就错了。一个选择正确的议会程序选项的模型，并不是能够帮助你应对议会程序的模型。我测量的是回忆率，却称之为推理。重要的问题（人工智能能否在不确定性下处理复杂的多变量决策，这是政府每天所需的思考）是一个测验无法接触到的事情。这种不满让我在一个周六晚上寻找一个游戏引擎的钥匙孔。我在聚会上非常有趣。无人：/ 我在凌晨2点反向工程一个游戏引擎：为什么选择六边形网格我在《文明VI》中玩了超过500个小时。我表现得充其量也只是平庸。但这个游戏在我脑海中占据着特殊的地位，因为当简单的决策逐步累积时会发生什么。你从小处开始：决定在哪里建造你的第一座城市，研究哪项技术，向哪个方向派遣侦察员。可能做出 10,000 个选择。到了中期，你需要管理多个城市、贸易路线、外交关系、军事布局和宗教压力。到晚期，相关环境的分析将每回合的决策空间估计为 10^166 个可能的行动。复杂性并不是设计出来的，而是从没有人完全计划好的系统相互作用中自然产生的。这也是政策制定的本质。今天看起来很优秀的健康政策，在十五年后可能会引发住房危机。推动GDP的贸易协议，可能会削弱你在任何人没有预见到的冲突中需要的国内产业。产生后果的决策会跨越几十年，通过你无法完全建模的变量，以及拥有相互竞争利益的参与者之间。游戏中有六种方式获胜（科学、文化、统治、宗教、外交、得分），所以没有单一的目标占主导地位。你必须读懂棋盘，决定你到底在玩什么游戏。如果你想知道一个人工智能是否可以进行战略性推理，而不仅仅是回答关于战略的问题，而是真正执行，你就不能给它一个测验。你必须给它一个六边形网格。因此，我构建了一个入口。我发现《文明VI》引擎中埋藏的调试端口，一个开发者留下的钥匙孔，并在一个周末把它转变成了一个MCP服务器，76个工具让人工智能通过它用来编写代码或查询数据库的相同接口玩《文明》。Claude Code既是我的共同开发者也是游戏测试员。玩几回合，遇到障碍，构建工具以突破障碍，继续玩，遇到下一个障碍。大致是这个能量。通过文本进行游戏人类玩家看到的是一个六边形网格、动画单位、迷你地图、通知横幅和音乐提示，所有这些都是同时可见的。代理人直到询问之前都什么也看不见。调用get_game_overview会以四行文本返回整个游戏状态：第150回合/330 | 波兰（雅德维加）| 分数：179 | 王子 | 快速速度（67%费用）黄金：628（+20/回合）| 收入：38 | 维护：-18（单位：9）| 科学：26.6 | 文化：16.2 | 信仰：904 | 影响力：