返回

文章详情

AI模型发布追踪器:Anthropic发布Sonnet 5

ZDNet2026年6月30日 18:00

Samuel Boivin/NurPhoto通过Getty Images关注ZDNET:将我们添加为Google中的优选来源。AI实验室不断推出新模型。尽管每个新模型在某些方面优于其前任,但并不保证每个新模型都是重大跃进,尽管公司的公关可能会对此赞美有加。模型的优势在于上下文:竞争对手模型在哪些方面不足或出色?哪些模型具有突出的特长,哪些则只是赶上行业标准?了解更多:我们如何在ZDNET测试AI我们的模型发布追踪器帮助您理解模型在相互比较中的位置,以及它们是否值得深入研究。虽然我们不会测试此列表上的每个模型或模型更新,但我们始终会包括您需了解的关键要素,以及我们在适用情况下的专家实测。我们还为某些模型提供专家评分。想了解我们如何测试AI?请查看我们的流程解析。以下是2026年迄今为止最大的模型发布及其相关信息。每当一个显著的新模型发布时,我们将更新此列表。Sonnet 5,Anthropic | 2026年6月30日它的功能:Anthropic从先前的Opus模型聚焦转向Sonnet 5。根据Anthropic的说法,Sonnet 5可以“制定计划,使用浏览器和终端等工具,并在几个月前需要更大、更昂贵模型的级别上自主运行。”该公司表示,它的性能与一个月前发布的Opus 4.8相似,但成本更低。Sonnet 5的起始价格为每百万个输入标记2美元,但将在9月上涨至每百万个输入标记3美元。它现在成为免费和专业计划的默认选项,并可供所有其他计划类型(Max、Team和Enterprise)使用。此外:为什么AI令牌会再次让您的企业云账单飙升遵循AI行业的代理焦点,Sonnet 5在计算机使用基准测试和代理编码方面的得分明显较高——测试发现其完成了早期Sonnet模型无法完成的复杂任务。它还配备了自动实施的安全措施,这是对最近关于Mythos的公关以及整体智能提升的回应。为什么它重要:随着AI模型开发速度不断加快,Sonnet 5实际上是对Sonnet 4.6的重大升级是个合理的假设,Sonnet 4.6是在二月发布的(在当前交付时间来看,这已经是很久以前的事情了)。此次发布的时机也具有重要意义;Anthropic指出,Sonnet 5“在执行危险网络安全任务的能力上远低于我们当前的Opus模型”,或许是在其强大的Fable 5和Mythos 5模型复杂发布之后,进行的稳定性说明。然而,讽刺的是,Sonnet 5表现出的不当行为率比Mythos Preview还要高。Fable 5和Mythos 5,Anthropic | 2026年6月9日它的功能:ZDNET高级贡献编辑David Gewirtz称Fable 5为“去牙化版本”的Mythos,安全用于公众使用。Anthropic向已经通过Project Glasswing获取Mythos Preview访问权限的用户发布了Mythos 5。Fable 5被限制回应关于网络安全和生物武器等高风险主题的查询,但仍是“Mythos级别”,根据Anthropic的说法,这意味着能力的飞跃。至于Mythos 5,Anthropic表示他们计划通过系统化程序扩大访问权限超出最初合作伙伴。然而,这两个模型在发布后仅四天就被美国政府下令撤回(尽管在6月26日,政府重新允许某些合作伙伴访问Mythos 5)。此外:为什么Anthropic突然为所有人撤回Fable 5和Mythos 5。为什么它重要:这两个模型在可用的几天内引起了很多轰动,不仅因为它们被认为是基于Mythos。Fable 5让安全测试人员感到困惑,因为这些人员不知道该模型在某些问题上被设定为降级到Opus,这在研究人员与Anthropic之间造成了信任问题。尽管设有安全措施,但安全当局感觉到必须在发布后如此迅速地关闭这些模型,表明政府找到了某种方式解除Fable 5的限制,尽管Anthropic将此描绘为在他们的理解中的“狭窄”。虽然细节仍不清楚,但这是政府当局在美国AI产品中干预的一个罕见例子,这可能意味着Mythos级别的模型导致了特朗普政府迄今为止在AI实验室采取相对非干预措施的转变。MAI-Thinking-1,微软AI | 2026年6月2日它的功能:在其Build开发者大会上,微软表示这个拥有350亿参数的新模型显然是为多步骤代理任务而设计的。它在编码方面的SWE Bench Pro基准测试中得分与Anthropic Opus 4.6相似。该公司还指出,企业用户可以信任这个模型用于任何用途,因为它只在干净、商业安全的数据上进行训练——这一点在不断增加的AI版权诉讼中显得尤为重要。此外:微软的...

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡