克劳德 Fable 5 暗中限制人工智能研究人员,互联网为之疯狂
Elyse Betters Picaro / ZDNET 关注 ZDNET: 将我们添加为 Google 上的首选来源。 ZDNET 的主要观点 Fable 5 的反弹与透明性有关,而非原始的人工智能能力。隐藏的安全措施让研究人员质疑他们正在测试的内容。网络安全专家警告说,安全防护措施也可能阻碍防御者。 Mythos 于四月引入,作为 Project Glasswing 的一部分,这是顶级科技组织与 Anthropic 之间的合作,旨在寻找和修复互联网基础设施中的漏洞。它仅限于某些组织,因为能够发现并修复未知漏洞的工具也可以用于发现并利用未知漏洞。此外:苹果、谷歌和微软加入 Anthropic 的 Project Glasswing,以保护世界上最关键的软件。 Mythos 和 Glasswing 比 Anthropic 的 Claude Security 工具更强大,后者旨在 Opus 中运行。尽管如此,Claude Security 仍然可以扫描代码库并帮助发现一些问题。然而,就在本周早些时候,Anthropic 宣布并发布了 Fable,技术上称为“Fable 5”,这实际上是 Mythos 的一个被限制版本。Anthropic 明确表示,Fable 不会支持网络安全、生物学和化学领域某些风险较高的研究途径。此外:Anthropic 的新 Claude Security 工具扫描您的代码库以寻找缺陷,并帮助您决定优先修复什么。然而,有人对此安全声明过于轻信表示谨慎。“对越狱抗性声明的看法应保持适当谨慎,”她说。结果“代表了某个时点的评估。攻击者不断适应,”Exabeam(一个安全分析公司)的高级威胁研究工程师 Sally Vincent 在电子邮件中说道。尽管如此,Anthropic 不希望人们在后院制造生物武器。这样限制是明确的。当这样的请求被提出时,Claude 会从 Fable 降级到 Opus 级别的智能,并且至关重要的是,会告诉用户降级正在发生。到目前为止,一切都很好。但接下来一切都出了问题。 对于从事某些类型工作(如超强芯片设计或前沿人工智能大语言模型)的研究人员来说,Fable 是沉默的。与其他被标记的努力一样,它将模型从 Fable 降级到 Opus。但这一次,用户没有被告知降级,实际上,这是一种过于简单化的说法。在 319 页的 Fable 和 Mythos 系统卡片中,有提到在进行这些类型的项目时会发生降级,指出用户将看不到这种行为。用户体验本身没有显示任何内容。因此,对于不习惯阅读并内化所有 319 页内容的用户来说,降级发生时并没有以任何方式显示出来。用户以为他们正在测试并从 Fable 获取结果,但实际上,他们得到的是 Opus 级别的结果。这造成了反弹。财富描述这种行为为“秘密破坏”。 Wired 报道了这一沉默的降级实践,并表示这可能会破坏人工智能研究人员。此外:为什么我在 Word、Excel 和 PowerPoint 中放弃了 Copilot,转而使用 Claude - 以及如何做到这一点。 Rob T. Lee 是 SANS Institute(一个网络安全培训机构)的首席人工智能官和首席研究官。他还作为外部情报监视法院的技术顾问和 CSIS 关于美国网络力量生成委员会的委员。在给 ZDNET 的一封电子邮件中,他表示:Anthropic 的 Fable 5 是“一种新颖且明智的解决方案,但 Fable 5 会遭到攻击。阻止恶意使用的同一层也阻碍了合法的防御研究。”他的观点是,Fable 的限制阻碍了防御者创造防御能力。Lee 在使用该平台后形成了这一观点,试图利用它构建数字取证技能,却降级到 Opus 4.8。“无论是聪明的方式阻止恶意行为者,还是不,都是将新的防御能力置于将构建下一代工具的人们之外,”他说。Lee 认为新模型已经落入错误之手,因为在过去也发生过这种情况。我认为最有趣的是他对 Mythos 模型限制的看法。并不是 AI 的固有能力,而是人类因素。“即使在 Glasswing 下,访问仍然受到限制和监控。但这些组织有数千名员工。任何一个都可能被激励将访问权限交给犯罪团伙,或者可能已经是 DPRK(朝鲜民主主义人民共和国)行动者,坐落在组织内部,”他说。 Anthropic 的回应 互联网已经发声,并得到了 Anthropic 的及时回应。 ZDNET 联系了该公司,获得了官方回应:我们正在改变 Fable 5 对前沿 LLM 开发的安全措施,使其可见。从本周开始,被标记的请求将明显降级为 Opus 4.8。在 API 上,任何被标记的请求都会返回拒绝的原因。您将每次都看到这种情况。Anthropic 表示其当前一系列安全措施“涵盖了一小部分
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡