为什么Anthropic的“安全”Mythos级模型无法回答有关癌症的问题

为什么Anthropic的“安全”Mythos级模型无法回答有关癌症的问题由Kelsey Vlamis撰写您当前正在关注这一作者！想要取消关注吗？通过您的电子邮件中的链接取消订阅。Anthropic向公众发布了一种包含广泛安全措施的“神话级”模型。Chris Ratcliffe/Bloomberg/Getty Images 如果您尝试向Anthropic的新的Claude Fable 5模型提出有关网络安全或生物学的简单问题，您可能会发现在这方面它的能力有限。这是因为底层的“神话级”模型非常强大，为了将其发布到公众中，Anthropic表示其需要广泛的安全措施，这些措施可能会错误地标记良性的请求。在一些用户在线上表示他们在尝试提出有关癌症或安全的基本提示时触发了安全响应后，《商业内幕》进行了测试。我尝试询问Fable 5一些关于癌症的简单问题，例如关于癌症错误信息如何在线传播，以及分解一些不同类型的癌症。Claude迅速从Fable 5切换到Opus 4.8，并在回应之前通知了我这个变化。“Fable 5具有安全措施，会标记大多数关于网络安全或生物学主题的信息。它们可能会标记安全的、正常的内容。这些措施使我们能够更早地将Mythos级的能力带给您，我们正在努力改进它们，”弹出窗口中表示。Anthropic在周二发布了Fable 5，并表示它的强大程度与Mythos 5模型相同，只是增加了安全措施。该发布是在公司表示由于网络安全问题，Mythos过于强大，无法广泛发布的两个月后。Mythos并未向公众发布，而是作为一个网络安全项目仅提供给少数小组。Anthropic表示这些安全措施对于向公众发布模型是必要的。“随着Claude Fable 5的推出，我们的第一个Mythos级模型，我们相信模型现在更有能力完成现实世界的科学任务，并且恶意行为者可能会利用我们的模型进行高风险的生物研究，”Anthropic的一位发言人在向《商业内幕》的声明中表示。“我们始终使用分类器阻止我们的模型帮助与生物武器相关的请求。为了安全地部署Fable 5，我们相信有必要过于谨慎地使用我们的安全措施，以便阻止与生物学工作相关的大多数查询。”Anthropic的Claude在回答有关癌症的基本问题时恢复到能力较弱的模型。Kelsey Vlamis/Anthropic的Claude 公司表示，有三类请求可能会被其安全分类器标记：网络安全、生物学与化学，以及Fable 5能力的提炼。当触发安全措施时，Fable 5将被阻止回答，或者在响应之前，模型将根据用户的偏好恢复为Opus 4.8。Anthropic表示，安全措施采取了保守态度，并计划改进它们。Anthropic在发布中表示，这些安全措施可能导致安全、正常内容被标记，但早期数据表明超过95%的Fable会话没有降级为Opus。“为了安全且快速地发布模型，我们以保守的方式调整了这些安全措施，”Anthropic表示，并补充说正在改进安全措施以减少误报。“我们打算向更广泛的生物学和生命科学社区提供没有这些安全措施的Mythos级模型，以便这些能力可以加速生物医学研究和药物发现，”这位Anthropic的发言人表示。该发布是在Anthropic的研究人员表示AI发展如此之快，以至于前沿实验室可能需要减缓或暂时暂停，以便社会能够跟上之后约一周。Palisade Research的政策主管David Kasten表示，从Anthropic的公开声明中“非常明显”公司担心越来越强大的模型带来的风险。尽管他将这些安全措施视为Anthropic减轻风险的诚意尝试，但他表示，从历史上看，“人们总是会找到绕过安全限制的方法。”“这始终是攻击者和防御者之间的游戏，”他说，并补充说发布更强大的模型仍存在一定风险。他还表示，Anthropic最强大的模型频繁恢复到能力较弱的模型，可能会导致公众对AI模型变得多强的理解产生差距。“这种理解上的差距可能会导致政策制定者或公众未能完全认识到这些模型在其所提供的能力方面所带来的风险，”他说。