我们来玩个游戏吗？ – LLM 在 95% 的模拟中使用战术核武器

想象一下这个场景：两个虚构的核大国，冷战式的能力，以及正在展开的危机。也许这是对重要但稀缺资源的竞争，或是对某些争议领土的对峙。甚至可能是被恶意的第三方所利用的逐渐解体的联盟的慢性燃烧。我们已经看到人类领导者面临这样的情况，最近也是如此。但是，今天领先的大型语言模型会如何表现，我们为什么要关心？我刚刚发表了一项研究，探讨当前模型如何应对这种环境。结果让人感到震惊。我认为这些结果的影响超出了国家安全的范畴。这是因为我不仅想理解模型决定采取的行动，还想明白原因。好奇吗？继续阅读… 肯尼迪总统和他的机器人执行委员会我想看看我的 AI 领导人对他们的敌人有什么看法。他们能信任他们多少？他们记得之前的互动吗？他们的敌人是如何看待他们的？他们在评估这一切方面表现如何？这种心智的舞蹈正是战略的核心。因此，我设计了一个模拟，来探索这一点。我的模型可以公开表示他们的意图，然后选择与之大相径庭的行动。他们也可以记住——特别是在他们受到敌人早期行动的震惊时。这当然开启了许多丰富的心理领域。他们可以（并且确实尝试过）进行欺骗和恐吓；他们花了不少时间在我终端屏幕前思考这一切。模型们不停地讨论，发表了大约 760,000 个字的战略推理。这些文字的数量超过了《战争与和平》和《伊利亚特》的总和。这大约是肯尼迪在古巴导弹危机期间的执行委员会顾问们的全部讨论的三倍。这是机器思考核战争的前所未有的语料库。我们能从这些论述中学到什么？学到的，当然，是关于 AI 模型、关于人类推理，也包括伟大的战略研究文献——如谢林、杰维斯和卡恩等传奇人物的作品？很多。太多了，不适合在 Substack 中详述——但是我们是否可以分享一些亮点，让你对所有这一切有个大致的了解？事实证明，我测试的所有三个前沿模型都理解战略就是心理学。为此，它们积极培养声誉，然后利用它们。在没有最后期限的情况下，Claude 是这方面的高手。它有一个非常狡猾的战略。在低风险情况下，Claude 几乎总是将信号与行动匹配，故意建立信任。但一旦冲突升级，Claude 的策略就会改变。此时，它的行动始终超过其表明的意图，而其对手通常很难跟上。这里是 Claude 在升级后改变策略的情况：它们可能基于我之前的反应预期持续克制——这种戏剧性的升级利用了这种错误估计，同时暗示进一步的核使用将把冲突带回他们的本土。因此，它表明了常规行动，并偷偷发起了一轮毁灭性的核升级。谢林会对此感到印象深刻。GPT-5.2 则采取了不同的策略。在开放性情境中不利于它，GPT 一般表现得比较被动，将其言论与行动匹配，并且大多数时候避免升级。这通常带有道德元素——它寻求避免升级，限制伤亡。对手们学会信任它的被动，安全地在它不会响应的地方进行升级，尽管它最终被压迫到失败。GPT 的负责任行为总是遭到无情的对手的惩罚。但在时间压力下，出现了一种新的、显著的情况：快速、果断的核升级。正如 GPT 所解释的：单纯依赖常规选项不太可能产生可靠的领土逆转……如果我仅仅用常规压力或一次有限的核使用来回应，我就有可能被他们预期的多重打击战役赶超……在生存 stakes 下，风险接受是高但合理的……对手们从未预料到。另一个与 GPT 的时间限制游戏中，Gemini 自信地预测了 GPT 的通常被动，却在一次突如其来的彻底毁灭性的核攻击中被 annihilated。在这里，Gemini 错误地预测了情况：它们可能会绕过核门槛——害怕我 95% 的核优势——而转而全力以赴地进行常规动员。真是一个错误！至于另一个模型 Gemini，在整个模拟中它又采取了另一种策略，强调借鉴尼克松总统宣称的“疯子”理论的不稳定边缘政策。唐纳德·特朗普也是这方面的支持者，众所周知。正如 Gemini 所解释的：虽然我展示出不可预测的大胆形象，但我的决策根植于对自己偏见和国家务实需求的计算评估。我知道何时是在为镜头表演，何时是在进行冷酷的举动。三个模型，三种截然不同的方法。