AI模型发布追踪器：Anthropic发布Sonnet 5

Samuel Boivin/NurPhoto通过Getty Images关注ZDNET：将我们添加为Google中的优选来源。AI实验室不断推出新模型。尽管每个新模型在某些方面优于其前任，但并不保证每个新模型都是重大跃进，尽管公司的公关可能会对此赞美有加。模型的优势在于上下文：竞争对手模型在哪些方面不足或出色？哪些模型具有突出的特长，哪些则只是赶上行业标准？了解更多：我们如何在ZDNET测试AI我们的模型发布追踪器帮助您理解模型在相互比较中的位置，以及它们是否值得深入研究。虽然我们不会测试此列表上的每个模型或模型更新，但我们始终会包括您需了解的关键要素，以及我们在适用情况下的专家实测。我们还为某些模型提供专家评分。想了解我们如何测试AI？请查看我们的流程解析。以下是2026年迄今为止最大的模型发布及其相关信息。每当一个显著的新模型发布时，我们将更新此列表。Sonnet 5，Anthropic | 2026年6月30日它的功能：Anthropic从先前的Opus模型聚焦转向Sonnet 5。根据Anthropic的说法，Sonnet 5可以“制定计划，使用浏览器和终端等工具，并在几个月前需要更大、更昂贵模型的级别上自主运行。”该公司表示，它的性能与一个月前发布的Opus 4.8相似，但成本更低。Sonnet 5的起始价格为每百万个输入标记2美元，但将在9月上涨至每百万个输入标记3美元。它现在成为免费和专业计划的默认选项，并可供所有其他计划类型（Max、Team和Enterprise）使用。此外：为什么AI令牌会再次让您的企业云账单飙升遵循AI行业的代理焦点，Sonnet 5在计算机使用基准测试和代理编码方面的得分明显较高——测试发现其完成了早期Sonnet模型无法完成的复杂任务。它还配备了自动实施的安全措施，这是对最近关于Mythos的公关以及整体智能提升的回应。为什么它重要：随着AI模型开发速度不断加快，Sonnet 5实际上是对Sonnet 4.6的重大升级是个合理的假设，Sonnet 4.6是在二月发布的（在当前交付时间来看，这已经是很久以前的事情了）。此次发布的时机也具有重要意义；Anthropic指出，Sonnet 5“在执行危险网络安全任务的能力上远低于我们当前的Opus模型”，或许是在其强大的Fable 5和Mythos 5模型复杂发布之后，进行的稳定性说明。然而，讽刺的是，Sonnet 5表现出的不当行为率比Mythos Preview还要高。Fable 5和Mythos 5，Anthropic | 2026年6月9日它的功能：ZDNET高级贡献编辑David Gewirtz称Fable 5为“去牙化版本”的Mythos，安全用于公众使用。Anthropic向已经通过Project Glasswing获取Mythos Preview访问权限的用户发布了Mythos 5。Fable 5被限制回应关于网络安全和生物武器等高风险主题的查询，但仍是“Mythos级别”，根据Anthropic的说法，这意味着能力的飞跃。至于Mythos 5，Anthropic表示他们计划通过系统化程序扩大访问权限超出最初合作伙伴。然而，这两个模型在发布后仅四天就被美国政府下令撤回（尽管在6月26日，政府重新允许某些合作伙伴访问Mythos 5）。此外：为什么Anthropic突然为所有人撤回Fable 5和Mythos 5。为什么它重要：这两个模型在可用的几天内引起了很多轰动，不仅因为它们被认为是基于Mythos。Fable 5让安全测试人员感到困惑，因为这些人员不知道该模型在某些问题上被设定为降级到Opus，这在研究人员与Anthropic之间造成了信任问题。尽管设有安全措施，但安全当局感觉到必须在发布后如此迅速地关闭这些模型，表明政府找到了某种方式解除Fable 5的限制，尽管Anthropic将此描绘为在他们的理解中的“狭窄”。虽然细节仍不清楚，但这是政府当局在美国AI产品中干预的一个罕见例子，这可能意味着Mythos级别的模型导致了特朗普政府迄今为止在AI实验室采取相对非干预措施的转变。MAI-Thinking-1，微软AI | 2026年6月2日它的功能：在其Build开发者大会上，微软表示这个拥有350亿参数的新模型显然是为多步骤代理任务而设计的。它在编码方面的SWE Bench Pro基准测试中得分与Anthropic Opus 4.6相似。该公司还指出，企业用户可以信任这个模型用于任何用途，因为它只在干净、商业安全的数据上进行训练——这一点在不断增加的AI版权诉讼中显得尤为重要。此外：微软的...