Anthropic为网络合作伙伴提供Mythos升级版，并为其他用户提供“安全”版本

Anthropic在周二发布了两个新的AI模型，名为Claude Fable 5和Claude Mythos 5，该公司表示这两个模型的能力比其在四月向有限的技术行业合作伙伴发布的Mythos预览模型更强大。Anthropic表示，初始的有限发布源于对模型能力可能被坏意行为者利用，开发出可能让防御者措手不及的黑客工具的担忧。Anthropic目前仅向有限的行业合作伙伴发布Claude Mythos 5，其中许多已经获得了Mythos预览版本的访问权限，该公司表示与美国政府合作推出。Claude Fable 5将公开发布，使用与Mythos 5相同的基础模型，但该公司在周二表示，启动时会有“保护措施”阻止该模型回答与网络安全、生物学和化学相关的许多用户问题。这些请求将会被重新路由到一个较旧的AI模型Claude Opus 4.8。如果Anthropic怀疑用户试图在Claude Fable 5上进行蒸馏（即基于大型AI模型的响应训练一个较小的AI模型），这些请求也将被重新路由到Claude Opus 4.8，该公司表示。在接受《WIRED》采访时，Anthropic的产品管理负责人Diane Penn表示，该公司在四月发布之前就一直在思考如何处理Mythos的软件漏洞发现能力和其他先进能力的问题，但自那时以来的测试和用户反馈帮助完善了策略。“我们正在努力以一种有益的方式进行改进，即使我们开始时没有对每个用例的完美[解决方案]，”Penn说。“在所有不同的方案中，这种方案被认为是最可行和最佳的。我们最终觉得这是让用户从Fable 5中获得最大价值的最佳产品选择。”目前，Penn表示，保护机制是以谨慎为优先考虑的，这意味着即使某些用户查询是无害的，也可能被路由到能力较低的AI模型。随着时间的推移，Anthropic希望使其分类器更精确，但Penn表示这是该公司目前能够安全发布模型的唯一方式。该公司在周二表示，除了向Project Glasswing合作伙伴提供Claude Mythos 5外，还向“部分生物学研究人员”提供访问权限。此外，Anthropic在其关于周二发布的博客文章中指出，在“我们的受信任访问程序可用之前”，它将向这些小组客户提供不受限制的版本，暗示未来有计划进一步扩大访问权限。自四月Mythos发布以来，Anthropic反复强调，最终其在私营和甚至开放重量领域的竞争对手不可避免地也将提供具有Mythos级别能力的模型。Claude Mythos和其他新AI模型设计黑客工具的能力，可以发现和利用新旧软件中的漏洞，迫使全球的科技公司和政府在这些级别的AI模型普遍向攻击者开放之前，确保其软件防御措施的安全。Anthropic首次将Mythos发布给行业合作伙伴，作为一个称为Project Glasswing的财团，设想这可以让成员们在准备自己的系统并权衡全球性解决方案以应对威胁之前，先行一步。Anthropic在上周关于Project Glasswing的更新中写道：“我们正在尽快工作，以安全地在一般访问中发布Mythos级别的能力。为此，我们需要非常健全的保障措施，以防止模型的网络能力被滥用——我们（以及据我们所知，所有其他AI开发者）尚未开发出这样的保障措施。”Anthropic表示Claude Fable 5——以文学形式命名，类似于公司现有的Haiku、Sonnet和Opus模型——在软件工程和需要视觉理解的任务上提供了更高的性能。但这种附加性能是有代价的。Claude Fable 5和Claude Mythos 5将向开发者收取每百万个输入标记10美元和每百万个输出标记50美元的费用——是Anthropic公开可用的AI模型的两倍，但比Mythos预览便宜。Claude Fable 5的受限发布暗示了Anthropic出于希望在技术行业解决这些模型的网络安全问题之前，尽早发布Mythos级AI模型的商业紧张。在四月，OpenAI也私下启动了一个声称具有先进网络安全能力的模型，并召开了类似于Project Glasswing的工作组。OpenAI和Anthropic都已秘密申请IPO，并正在争相在今年成为公众公司之前给潜在投资者留下深刻印象。即使作为一种临时解决方案，Claude Fable 5的保障措施在实际环境中的抵抗力仍有待观察。Anthropic表示...