Anthropic的安全超能力

听这篇文章：我对那些不断将Anthropic的公开声明，尤其是围绕他们的模型发布进行描述的怀疑论者抱有同情，认为这只是为了市场营销而制造恐慌。就在两个月前，Anthropic宣布了Mythos Preview，一个他们称之为太危险而无法公开发布的模型，特别是因为它先进的网络安全能力。然后，两个月后，该公司公开发布了Fable，这是Mythos的一个版本，具有各种安全保护措施。在我有限的经验中，Fable是一个非常出色的模型。客观评估模型的表现越来越困难，尤其是编码性能以外的方面，但有主观的感觉，我发现与Fable的互动令人极为印象深刻；它让其他模型，包括GPT 5.5和Opus 4.8，显得微不足道和愚蠢。之前有两次让我有这种感觉的情况是使用GPT-4和Grok 4，这两个模型在基础模型的规模和复杂性上都代表了新一代；我觉得Fable是在新的预训练过程之后生成的，且是新一代的首个代表。为此，我当然可以理解Fable/Mythos在识别和利用安全问题方面确实更具能力的论点，而Anthropic的审慎推出是合理的。然而，公开发布模型的问题在于，保护措施可能会被破解，而显然这就是在发布后不久发生的事情。Anthropic与美国政府，再次接下来发生的事情有些不清楚。Anthropic在一篇博客文章中写道：美国政府援引国家安全当局，已发布出口管制指令，暂停所有外国公民，包括在美国境内或境外的外国国籍的Anthropic员工对Fable 5和Mythos 5的访问。该命令的净效应是，我们必须突然禁用Fable 5和Mythos 5，以确保合规。对所有其他Anthropic模型的访问不会受到影响。我们今天在东部时间下午5:21收到了政府的指令。信中未提供具体的国家安全关切细节。我们了解到，政府认为它已意识到一种方法，可以绕过或“破解”Fable 5。我们审核了这种特定技术被用来识别少量已知的小漏洞的演示。这些漏洞看起来都相对简单，我们发现其他公开可用的模型也能够发现这些漏洞，而无需采取绕过措施。Anthropic进一步论证，非普遍性破解是不可避免的且也很狭窄，并且没有证据表明存在普遍的破解；同时，发现的破解似乎是由亚马逊报告的，值得注意的是，亚马逊既是Anthropic的投资者，也是为该公司提供推理的主要供应商。在我写这篇文章时，Anthropic的高级员工正在华盛顿特区寻求解决他们所坚持的误解，而白宫官员则暗示这是公司的领导对合法国家安全关切的漠不关心。我对当前冲突没有太多要补充的，因为争议的事实太多；我不感到意外的是冲突的发生：我已经在《Anthropic与对齐》中解释过，Anthropic与美国政府之间的冲突是不可避免的。因此，那些认为Mythos不够强大而不足以引起政府采取极端行动的人正错过了要点：如果它现在不够强大，下一款模型会，或者后面那一款，尤其是在模型越来越能够创造其后继者的情况下。然而，这引发另一个问题——似乎验证了怀疑论者的观点：如果Mythos如此危险，为什么还要发布Fable，为什么要与政府争斗，而政府正是你声称希望进行的那件事？事实上，我认为Anthropic的行为相当可以理解；使这家公司独特的是它如何为这些行为辩护，而正是这些辩护使怀疑论者得到了支持，同时为Anthropic增添了魔力。经济动力在人工智能的头几年，最经济的价值显然是流向计算，因为我们没有足够的供应来满足需求，这导致价格飙升；最大受益者是Nvidia、台积电(SMIC)和内存制造商(SK hynix、三星和美光)。与此同时，Anthropic和OpenAI则共同损失了数百亿美元用于构建尖端模型，而这些模型一旦发布，就会被来自中国的开源模型提炼和商品化。这代表了实验室的空头论点——因为它们的差异化是短暂的，从来未能覆盖其成本，而免费的替代品变得“足够好”——我认为这是一个合理的观点。一个模型可以互换使用的世界……