重新部署 Fable 5

在 6 月 12 日星期五，美国政府对我们的最新模型 Claude Fable 5 和 Claude Mythos 5 应用了出口管制。这要求我们限制外国公民的访问，无论他们是在美国境内还是境外。由于该命令立即生效，而我们没有可靠的方法实时验证国籍，因此我们暂停了所有用户对这两个模型的访问。截至今天，6 月 30 日，Fable 5 和 Mythos 5 的出口管制已经解除。Fable 5 将于明天，即 7 月 1 日星期三，在 Claude 平台、Claude.ai、Claude Code 和 Claude Cowork 上向全球用户提供。对于 Pro、Max、Team 和部分企业计划，Fable 5 将在 7 月 7 日之前包含在每周使用限制的 50% 内，之后它将通过使用积分提供。我们将尽快恢复在 AWS、Google Cloud 和 Microsoft Foundry 的访问。同时，在美国政府于 6 月 26 日批准后，我们也恢复了对 Mythos 5 的访问，适用于一组美国组织。我们继续与政府协调，以扩大对 Glasswing 计划中更广泛的国内和国际合作伙伴的访问。在本帖的其余部分中，我们将在四个方面提供进一步的细节和更新：事件时间线，包括我们对安全措施所做的更新。我们讨论了导致出口管制指令的事件，以及我们如何通过新的安全措施来应对它。我们的安全措施总体方针。我们提供更多背景，说明我们如何使用安全分类器来检测我们模型潜在的危险网络安全用途。共享的行业框架。尽管我们已达成建设性解决方案，但这些事件清楚地表明，行业需要一种一致的方式来评估和修复 AI 模型潜在的“越狱”（绕过模型安全措施的技术）。共享的标准来判断特定越狱的严重性，将帮助 AI 开发者在新发现出现时进行优先级处理，推出更安全的高能力模型，并与政府和行业合作伙伴一致传达风险级别。我们与亚马逊、微软、谷歌及其他 Glasswing 合作伙伴一起，已开始开发这样的框架，下面将对此进行概述。加强政府合作。我们还在加强与美国政府的合作水平，包括新的发布前测试、信息共享和研究协作。在最后一节中我们将描述这种更深入的合作。事件时间线和安全更新我们于 6 月 9 日星期二发布了 Fable 5 和 Mythos 5。它们共享相同的基础模型，但 Fable 5 于发布时提供了强大的安全措施，以使其更适合一般使用。Mythos 5 由于安全措施较少，仅向少量受信任的 Project Glasswing 合作伙伴发布，用于防御性网络安全。6 月 12 日的出口管制指令是在政府得知亚马逊研究人员发现了一种绕过 Fable 5 安全措施的方法之后发出的：通过提示使其识别出一些软件漏洞。在一种情况下，该模型生成了演示代码，展示了如何利用相关漏洞。在过去两周里，我们与政府和其他合作伙伴（包括亚马逊）紧密合作，审查报告和证据。我们的测试确认，许多能力较弱的模型——包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7——也能够识别出 Fable 5 报告中的相同漏洞。在展示如何利用单一漏洞的情况下，我们测试的每个模型都能够生成与 Fable 5 相同的演示（包括 Claude Haiku 4.5、Sonnet 4.6、Opus 4.6、Opus 4.7、Opus 4.8、GPT-5.4、GPT-5.5 和 Kimi K2.7）。重要的是，报告的技术并未暴露出任何独特的 Mythos 级网络能力。这种行为反映了 Fable 5 安全措施的一个边缘案例——正如我们将要解释的，有些任务不太可能是危险的，但由于过度谨慎，依然被安全措施阻止。报告的技术允许访问一种这样的行为，但这仅涉及例行的防御性网络安全工作。即便如此，我们迅速采取措施解决报告的绕过问题。与政府紧密合作，我们训练了一个改进的安全分类器，专门针对并阻止报告中描述的行为。如果 Fable 5 的请求被阻止，用户将会收到通知，而该请求将被发送至 Opus 4.8。新的分类器意味着在超过 99% 的情况下，将阻止亚马逊报告中描述的特定技术。在极少数情况下，该模型可能提供的信息不够详细，无法帮助网络攻击者。正如我们在下面所述，该模型的安全措施不预计会阻止所有低风险的例行网络防御能力——只有那些潜在有害的能力会被阻止。美国商务部人工智能标准与创新中心（CAISI）的研究人员已经测试了……