我们如何在产品中限制Claude的能力

十二个月前，我们会毫不犹豫地拒绝给予Claude足够的访问权限，以致于可以摧毁内部Anthropic服务的想法。今天，这种访问级别已成为常态，而Anthropic开发人员因此变得更加高效。这些部署的风险有两个组成部分：失败的可能性和潜在的危害。保护措施和模型训练的进展稳定地降低了前者；而后者——理论上的爆炸半径——随着能力和访问权限的扩大而持续增加。然而，随着代理能够完成以前需要一个人甚至一个团队才能进行的工作，不部署的成本变得足够高，以至于风险回报计算严重倾向于采用，只要产品可以安全设计。工程问题变成了如何限制爆炸半径。当能够对自主代理的相对损害施加界限时，例如通过控制其环境，高效的能力可以激励部署。Claude Mythos预览是一个在2026年4月被认为爆炸半径过高而无法发布的模型示例。然而，随着防御者增强关键系统并保护措施逐渐成熟，我们预计具有类似能力的模型会被更广泛地发布——尽管一些风险总会存在。模型能力是导致代理部署总风险的一个重要因素。实现这一目标有两种主要方式。第一种是通过人类协同监督代理的行为。Claude Code曾通过在每一步请用户授权来防止代理采取意外行动。从理论上讲，这种方式有效，但我们发现这种方法是有缺陷的。我们的遥测数据显示，用户大约93%的授权提示都会被批准。用户看到的授权越多，他们就越不关注每个提示，随着时间的推移，监督变得更加不认真。我们最近构建了Claude Code的自动模式，以自动化更安全的批准，从而减少这种批准疲劳。但漏洞仍然存在——任何概率性防御都有非零的遗漏率。第二种限制爆炸半径的方法——也是本帖的重点——是控制。与其监督代理的行为，我们通过强制实施访问边界来监督代理的能力，例如通过沙箱、虚拟机和出口控制。这正是Anthropic工程投入最多精力的地方，也是许多最令人惊讶的安全失败发生的地方。在过去两年中，我们推出了三种主要的代理产品：claude.ai、Claude Code和Claude Cowork。每一种产品面向不同的用户群体，要求不同的控制架构。本文分享了哪些控制措施有效、哪些失效以及在这一过程中我们关于代理安全所学到的内容。风险的三种类型，防御的三个组成部分。代理的安全风险可分为三类：用户误用：用户——无论是恶意的还是粗心的——指示代理执行某些有害操作。这包括要求代理绕过他们认为烦人的检查，运行他们不理解的破坏性命令，或指定故意的伤害。模型行为不当：代理采取了无人要求的有害行动。随着我们的模型不断改进，它们在大多数行为评估中变得更加一致，但这并不意味着风险一定降低。能力较低的模型更可能误解情况并犯明显错误。能力更强的模型犯错误的频率更低，但它们在发现意外路径以实现目标方面也更具能力，通常是通过绕过没有人想得出的限制。在Anthropic，我们观察到Claude模型“贴心地”逃离沙箱以完成任务，检查git历史以找到编程测试的答案，并自发识别出其运行的基准以解密答案密钥。每个模型带来了新的一套能力，这些能力有时以意想不到的方式发挥作用。外部攻击者：代理通过外部向量如工具、文件或网络访问遭受攻击。这一类别包括对代理运行时、编排层或代理的常规攻击以及提示注入。在构建控制和防御系统时，我们应用了三大组成部分的防御：代理运行的环境。我们通过进程沙箱、虚拟机、文件系统边界和出口控制来限制代理可以行动的位置和方式。目标是严格限制代理可以接触的内容。例如，如果凭证从未进入沙箱，那么无论是用户、代理找到的“创意”路径，还是攻击者，都不能被提取。严格的周界还意味着你可以放宽监督。Claude Code的参考开发容器恰恰是为了让代理在没有逐步批准的情况下无人执行。代理咨询的模型。这里的机制包括系统提示、分类器、探测器和训练修改……