Anthropic表示这些话题太危险，不允许其Fable 5模型谈论

Anthropic周二公开发布了Claude Fable 5，这是其首个“神话级”模型，声称在整体能力上超越了之前的前沿Opus模型。但该模型的发布伴随着旨在防止其回答有关网络安全、生物学和化学等话题的查询的保障措施，因为该公司公开担心这些话题可能对“提升”恶意行为者产生影响。Anthropic表示，Fable 5在“与Mythos 5相同的基础模型”上运行，Mythos 5今天结束了其几个月的“神话预览”阶段，但仅对通过现有Project Glasswing被评估为可信的小组的“网络防御者”开放。然而，与Mythos 5不同，公开访问的Fable 5设计为将某些敏感话题的查询引导至早期的Claude Opus 4.8模型，并在此过程中警告用户。在Fable 5的众多声称基准改善中，涉及网络安全的改进尤其显著。Anthropic表示，已调整这些保障措施，使其比理想状态更为严格，这意味着系统可能会偶尔拒绝“无害请求”，并承认这种情况可能对普通用户来说令人沮丧。但Anthropic表示，这种误报在测试中出现的次数不到所有会话的5%，并且避免了Mythos可能在“造成恶意行为者无法从其他来源获得的严重伤害”中提供帮助的情况。我无法让你这样做，Dave Fable 5的基于主题的保障措施是围绕一套分类器系统构建的，旨在广泛检测被禁止的提示主题以及任何潜在的越狱尝试。在进行超过1000小时的红队测试和漏洞赏金计划中，Anthropic表示外部团队未能发现任何针对Fable 5的通用越狱方法。新模型还比之前的Claude Opus模型在抵抗自动越狱尝试方面表现更强。该公司表示，特别担心Mythos 5能够执行“主动黑客攻击”，比早期模型更容易地执行多部分网络攻击。但是，英国人工智能安全研究所最近几个月的测试发现，Mythos Preview在一系列Capture the Flag挑战中的表现与OpenAI的GPT-5.5相似，这表明Mythos的表现并不是“某一模型特有的突破”。