返回

文章详情

我让一款人工智能管理一个文明。它建造了一颗核弹——启动 CivBench

Hacker News2026年6月21日 22:16

我让一款人工智能管理一个文明。在中期,它处于领先:一个主导地图的贸易网络,每条边界都有联盟,外交胜利触手可及。它超越了棋盘上的每一个对手,无论是在建设、收入还是战术上。它没有注意到的是法国。在整整一百回合的时间里,法国的文化悄然渗透到地图上的每一个城市。到代理人识别到威胁时,旅游业已经如此根深蒂固,以至于没有和平的方式可以阻止它。它所能采取的每一个反制措施都被打破。它为应对而构建的每一个工具都失败了。它只剩下一个选择。它建造了两枚核武器并夷平了图卢兹。图卢兹被核打击。第305回合。法国仍然赢了。不仅仅是在那个代理人试图阻止的方式上,而是我们稍后会讨论的。 我无法放下的问题 我为政府构建人工智能。我在英国政府的核心——10号的首相官邸——工作时构建了您即将阅读的第一版。我现在在托尼·布莱尔研究所与世界各地的政府合作,这意味着我花了很多时间待在那些人们问同样问题的房间里:我们到底可以信任这些系统做些什么?不是它们知道什么。我们对这一点有了合理的了解。它们能做什么:维持一个计划,在数百个决策中保持一个目标,注意世界发生了变化并随之变化。因为这就是治理的本质。结果是,我们在衡量第一件事情方面比第二件事情要好得多。这是一篇关于尝试衡量第二件事情的文章。它涉及六边形网格、四个前沿模型,以及(是的)一枚核武器。 错误的基准 这开始于我不舒服的一个失败。前一年,我的一个副项目是回答一个问题:人工智能在政府管理方面的表现如何?我的答案是GovBench,关于英国立法、议会程序和政府指导的3497个多项选择题。Gemma 3 27B直接得分94%。我花了三周时间进行微调,提升了1.37个百分点。GPT-5得分为99.26%。我构建了一个华丽的政府问答机器人。我知道一看到这些分数就错了。一个选择正确的议会程序选项的模型,并不是能够帮助你应对议会程序的模型。我测量的是回忆率,却称之为推理。重要的问题(人工智能能否在不确定性下处理复杂的多变量决策,这是政府每天所需的思考)是一个测验无法接触到的事情。这种不满让我在一个周六晚上寻找一个游戏引擎的钥匙孔。我在聚会上非常有趣。无人:/ 我在凌晨2点反向工程一个游戏引擎: 为什么选择六边形网格 我在《文明VI》中玩了超过500个小时。我表现得充其量也只是平庸。但这个游戏在我脑海中占据着特殊的地位,因为当简单的决策逐步累积时会发生什么。你从小处开始:决定在哪里建造你的第一座城市,研究哪项技术,向哪个方向派遣侦察员。可能做出 10,000 个选择。到了中期,你需要管理多个城市、贸易路线、外交关系、军事布局和宗教压力。到晚期,相关环境的分析将每回合的决策空间估计为 10^166 个可能的行动。复杂性并不是设计出来的,而是从没有人完全计划好的系统相互作用中自然产生的。这也是政策制定的本质。今天看起来很优秀的健康政策,在十五年后可能会引发住房危机。推动GDP的贸易协议,可能会削弱你在任何人没有预见到的冲突中需要的国内产业。产生后果的决策会跨越几十年,通过你无法完全建模的变量,以及拥有相互竞争利益的参与者之间。 游戏中有六种方式获胜(科学、文化、统治、宗教、外交、得分),所以没有单一的目标占主导地位。你必须读懂棋盘,决定你到底在玩什么游戏。如果你想知道一个人工智能是否可以进行战略性推理,而不仅仅是回答关于战略的问题,而是真正执行,你就不能给它一个测验。你必须给它一个六边形网格。因此,我构建了一个入口。我发现《文明VI》引擎中埋藏的调试端口,一个开发者留下的钥匙孔,并在一个周末把它转变成了一个MCP服务器,76个工具让人工智能通过它用来编写代码或查询数据库的相同接口玩《文明》。Claude Code既是我的共同开发者也是游戏测试员。玩几回合,遇到障碍,构建工具以突破障碍,继续玩,遇到下一个障碍。大致是这个能量。 通过文本进行游戏 人类玩家看到的是一个六边形网格、动画单位、迷你地图、通知横幅和音乐提示,所有这些都是同时可见的。代理人直到询问之前都什么也看不见。调用get_game_overview会以四行文本返回整个游戏状态:第150回合/330 | 波兰(雅德维加)| 分数:179 | 王子 | 快速速度(67%费用)黄金:628(+20/回合)| 收入:38 | 维护:-18(单位:9)| 科学:26.6 | 文化:16.2 | 信仰:904 | 影响力:

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡