Anthropic的安全超能力
听这篇文章:我对那些不断将Anthropic的公开声明,尤其是围绕他们的模型发布进行描述的怀疑论者抱有同情,认为这只是为了市场营销而制造恐慌。就在两个月前,Anthropic宣布了Mythos Preview,一个他们称之为太危险而无法公开发布的模型,特别是因为它先进的网络安全能力。然后,两个月后,该公司公开发布了Fable,这是Mythos的一个版本,具有各种安全保护措施。在我有限的经验中,Fable是一个非常出色的模型。客观评估模型的表现越来越困难,尤其是编码性能以外的方面,但有主观的感觉,我发现与Fable的互动令人极为印象深刻;它让其他模型,包括GPT 5.5和Opus 4.8,显得微不足道和愚蠢。之前有两次让我有这种感觉的情况是使用GPT-4和Grok 4,这两个模型在基础模型的规模和复杂性上都代表了新一代;我觉得Fable是在新的预训练过程之后生成的,且是新一代的首个代表。为此,我当然可以理解Fable/Mythos在识别和利用安全问题方面确实更具能力的论点,而Anthropic的审慎推出是合理的。然而,公开发布模型的问题在于,保护措施可能会被破解,而显然这就是在发布后不久发生的事情。Anthropic与美国政府,再次 接下来发生的事情有些不清楚。Anthropic在一篇博客文章中写道:美国政府援引国家安全当局,已发布出口管制指令,暂停所有外国公民,包括在美国境内或境外的外国国籍的Anthropic员工对Fable 5和Mythos 5的访问。该命令的净效应是,我们必须突然禁用Fable 5和Mythos 5,以确保合规。对所有其他Anthropic模型的访问不会受到影响。我们今天在东部时间下午5:21收到了政府的指令。信中未提供具体的国家安全关切细节。我们了解到,政府认为它已意识到一种方法,可以绕过或“破解”Fable 5。我们审核了这种特定技术被用来识别少量已知的小漏洞的演示。这些漏洞看起来都相对简单,我们发现其他公开可用的模型也能够发现这些漏洞,而无需采取绕过措施。Anthropic进一步论证,非普遍性破解是不可避免的且也很狭窄,并且没有证据表明存在普遍的破解;同时,发现的破解似乎是由亚马逊报告的,值得注意的是,亚马逊既是Anthropic的投资者,也是为该公司提供推理的主要供应商。在我写这篇文章时,Anthropic的高级员工正在华盛顿特区寻求解决他们所坚持的误解,而白宫官员则暗示这是公司的领导对合法国家安全关切的漠不关心。我对当前冲突没有太多要补充的,因为争议的事实太多;我不感到意外的是冲突的发生:我已经在《Anthropic与对齐》中解释过,Anthropic与美国政府之间的冲突是不可避免的。因此,那些认为Mythos不够强大而不足以引起政府采取极端行动的人正错过了要点:如果它现在不够强大,下一款模型会,或者后面那一款,尤其是在模型越来越能够创造其后继者的情况下。然而,这引发另一个问题——似乎验证了怀疑论者的观点:如果Mythos如此危险,为什么还要发布Fable,为什么要与政府争斗,而政府正是你声称希望进行的那件事?事实上,我认为Anthropic的行为相当可以理解;使这家公司独特的是它如何为这些行为辩护,而正是这些辩护使怀疑论者得到了支持,同时为Anthropic增添了魔力。经济动力 在人工智能的头几年,最经济的价值显然是流向计算,因为我们没有足够的供应来满足需求,这导致价格飙升;最大受益者是Nvidia、台积电(SMIC)和内存制造商(SK hynix、三星和美光)。与此同时,Anthropic和OpenAI则共同损失了数百亿美元用于构建尖端模型,而这些模型一旦发布,就会被来自中国的开源模型提炼和商品化。这代表了实验室的空头论点——因为它们的差异化是短暂的,从来未能覆盖其成本,而免费的替代品变得“足够好”——我认为这是一个合理的观点。一个模型可以互换使用的世界……
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡