Anthropic表示这些话题太危险,不允许其Fable 5模型谈论
Anthropic周二公开发布了Claude Fable 5,这是其首个“神话级”模型,声称在整体能力上超越了之前的前沿Opus模型。但该模型的发布伴随着旨在防止其回答有关网络安全、生物学和化学等话题的查询的保障措施,因为该公司公开担心这些话题可能对“提升”恶意行为者产生影响。Anthropic表示,Fable 5在“与Mythos 5相同的基础模型”上运行,Mythos 5今天结束了其几个月的“神话预览”阶段,但仅对通过现有Project Glasswing被评估为可信的小组的“网络防御者”开放。然而,与Mythos 5不同,公开访问的Fable 5设计为将某些敏感话题的查询引导至早期的Claude Opus 4.8模型,并在此过程中警告用户。在Fable 5的众多声称基准改善中,涉及网络安全的改进尤其显著。Anthropic表示,已调整这些保障措施,使其比理想状态更为严格,这意味着系统可能会偶尔拒绝“无害请求”,并承认这种情况可能对普通用户来说令人沮丧。但Anthropic表示,这种误报在测试中出现的次数不到所有会话的5%,并且避免了Mythos可能在“造成恶意行为者无法从其他来源获得的严重伤害”中提供帮助的情况。我无法让你这样做,Dave Fable 5的基于主题的保障措施是围绕一套分类器系统构建的,旨在广泛检测被禁止的提示主题以及任何潜在的越狱尝试。在进行超过1000小时的红队测试和漏洞赏金计划中,Anthropic表示外部团队未能发现任何针对Fable 5的通用越狱方法。新模型还比之前的Claude Opus模型在抵抗自动越狱尝试方面表现更强。该公司表示,特别担心Mythos 5能够执行“主动黑客攻击”,比早期模型更容易地执行多部分网络攻击。但是,英国人工智能安全研究所最近几个月的测试发现,Mythos Preview在一系列Capture the Flag挑战中的表现与OpenAI的GPT-5.5相似,这表明Mythos的表现并不是“某一模型特有的突破”。
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡