返回

文章详情

Anthropic apologizes for invisible Claude Fable guardrails

Anthropic为隐形的Claude Fable保护措施道歉

The Verge2026年6月11日 11:40

Anthropic因秘密限制其新AI模型Claude Fable 5,而感到抱歉,这些隐藏的保护措施削弱了研究人员和竞争对手使用该模型进行开发竞争系统的能力。公司表示将改变做法,并将更加透明地告知何时限制开始生效,即使这意味着Fable会拒绝更多查询。Fable是Anthropic的神话类AI系统中第一个广泛可用的模型,该公司已花费数月时间警告此类系统太危险,无法公开发布。Anthropic表示,它通过推出Fable并加以保护,以防止其对某些“高风险”查询作出响应,从而解决了一些风险。Anthropic表示,它将限制Fable对提取(蒸馏)查询的响应,这是一种使用大型AI模型输出训练小型AI模型的技术。在Fable的系统卡中——AI开发者发布的公开文档,用以解释系统的工作原理——Anthropic表示,它将通过改变和降低模型的答案来处理它认为是蒸馏尝试的查询。用户不会被告知他们已触发安全措施,也不会被告知响应已被更改。Anthropic表示,它现在正在改变其蒸馏方法:查询将回退到Claude Opus 4.8,这是Anthropic的前旗舰模型,公司在X上发布的帖子中表示。Anthropic还会显著告知用户:“每次发生这种情况您都会看到。”这类似于Fable在其他高风险领域处理查询的方式。当在生物学、化学和网络安全等领域触发安全功能时,查询会通过Opus 4.8进行路由,除非根据公司更广泛的安全规则被明确阻止,例如那些涵盖药物、武器或其他禁止内容的规则。在某些情况下,特别是在生物学中,这些保护措施被校准得过于宽泛,以至于Fable在进行基本查询时几乎无法使用,Anthropic在对《边缘》杂志的评论中承认了这一点。“可见的保护措施可以被测试,因此必须是稳健的,这需要时间来做得正确,”Anthropic写道。“隐形保护措施可以更精确地针对,允许我们快速发布并减少误报。我们出于这个原因选择了隐形保护措施——而这是错误的权衡。您应该知道我们所采取的保护措施及其原因。我们很抱歉没有做到平衡。”这一变化是由于AI研究界对Anthropic决定在没有宣布的情况下限制被认为试图将Fable提取成竞争模型的用户而强烈反对。批评者警告称,这一保护措施也可能影响试图评估前沿模型的第三方。在系统卡中,Anthropic表示,较新模型加速AI发展的能力为针对这些请求提供了合理依据,指出“使用Claude开发竞争模型已违反我们的服务条款。”Anthropic之前曾指责中国竞争对手如DeepSeek不公平地以“工业”规模提取其模型。请关注本文的主题和作者,以便在个性化主页动态中查看更多类似内容,并接收电子邮件更新。罗伯特·哈特

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡