网络安全研究人员对Anthropic的Fable的警戒机制不满

Anthropic于周二发布了其最新模型Fable，声称这是其强大且备受关注的网络安全模型Mythos的公共和有限版本。但并非所有人都对这些限制感到满意，许多网络安全研究人员和专业人士在网上表达了不满。著名的安全研究员Valentina "Chompie" Palmiotti在IBM X-Force工作，她说：“[Fable]拒绝任何可能与网络相关的请求。即使是诸如阅读博客文章这样无辜的任务。”当一个提示触发其警戒机制时，Fable会暂停聊天，并表示其“安全措施标记了该消息涉及网络安全或生物学主题。”这些警戒机制是为了降低Fable被用于开发恶意软件或危害软件的风险——这是Anthropic一直以来的一个长期关切。对生物学的限制源于对开发生物武器的类似关注。当这家人工智能巨头在四月发布Mythos时，它限制了模型的使用，仅对少数公司和组织开放，称之为Project Glasswing，这是一个旨在将该模型部署用于保护关键软件和基础设施的努力。上周，Anthropic将Mythos的访问权限扩展到15个国家的数百个组织。但尽管出发点良好，许多网络安全专家对限制的任意性质仍然感到困扰。网络安全老兵Matt Suiche告诉TechCrunch：“如果你让它写安全代码，它假设这是与网络安全相关的工作，而不是软件工程的最佳实践，你就会被降级。” 如果Fable触发了警戒机制，它会被编程回退到Claude Opus 4.8。“它似乎是基于关键词的，因此在‘网络安全’的词汇领域中的任何内容都会触发警戒机制。”联系我们你是否有关于黑客如何使用人工智能的更多信息？或者网络安全公司如何使用人工智能的信息？我们很想听听你的意见。从非工作设备和网络，你可以通过Signal以+1 917 257 1382安全联系Lorenzo Franceschi-Bicchierai，或通过Telegram和Keybase联系@lorenzofb，或发送电子邮件。“但这是可以理解的，因为我们仍处于早期阶段，他们仍在调整他们的警戒机制。我相信随着Anthropic和其他前沿模型公司与当前新一代网络安全公司的合作，这些机制会随着时间的推移而发展，”在AI网络安全初创公司Tolmo工作的Suiche说。“进行这样的发布时，捕获更多人总比捕获不够的人要好，并随着时间的推移松动警戒机制。”另一位研究人员在X上抱怨说，“即使是请求代码审查”也会触发Fable的警戒机制。Anthropic没有立即对请求发表评论。除了模型内的警戒机制，Anthropic还要求网络安全专业人士申请网络验证程序。如果他们获得批准，申请人在使用Claude进行网络安全工作时会有更少的限制。OpenAI有一个类似的程序，称为网络信任访问。当您通过我们文章中的链接购买时，我们可能会获得少量佣金。这不会影响我们的编辑独立性。Lorenzo Franceschi-Bicchierai是TechCrunch的高级撰稿人，主要报道黑客、网络安全、监控和隐私。您可以通过电子邮件lorenzo@techcrunch.com 联系Lorenzo或验证相关信息，也可以通过加密消息在Signal上联系+1 917 257 1382，以及在Keybase/Telegram上联系@lorenzofb。查看简历