Anthropic推出Claude Sonnet 5作为更便宜的代理运行方式
随着将代理能力作为基础模型公司之间的竞争底线,Anthropic推出了Claude Sonnet 5,这是实验室中型模型更强大和具有代理性的新版本。"它可以制定计划,使用浏览器和终端等工具,并在仅几个月前需要大型和高价模型才能实现的水平上自主运行,"Anthropic在一篇博客文章中表示。这种表述与OpenAI和Google对其最近发布的产品的说法相呼应。OpenAI的GPT-5.6 Sol上周首次推出预览,它也是该公司的最新代理模型,允许用户在更长的自主任务中跨子代理分配工作。Google在五月推出的Gemini 3.5 Flash被定义为一种从对话聊天机器人转变为代理工具,能够规划、构建和迭代实际工作,所需的人工输入最小。Sonnet 5的定位确认了代理能力是每个价格等级的新基础期望。现在,分化的标准不再是谁能最好地执行代理工作,而是他们能多便宜地做到这一点,以及在没有人类监督的情况下运行得有多可靠。Sonnet 5承诺的性能接近Opus 4.8,但成本要低得多。从周二开始,Claude Sonnet 5将成为免费和专业计划的默认模型,适用于每个订阅。上线时,Sonnet 5的定价为每百万输入标记2美元,每百万输出标记10美元,直到8月31日,之后价格将上涨至每百万输入标记3美元,每百万输出标记10美元。这使Sonnet 5比Opus 4.8以及OpenAI的GPT-5.5和Gemini 3.1 Pro更便宜。(它仍然比Gemini 3.5 Flash更贵。)根据Anthropic的说法,这个新模型在代理性能方面相较于2月份发布的前身Sonnet 4.6有显著改善,如推理、工具使用、软件编码和知识工作。例如,在一个基准测试中,Sonnet 5在代理编码方面的得分为63.2%,而Opus 4.8为69.2%,Sonnet 4.6为58.1%。在知识工作基准测试中,Sonnet 5的表现甚至略微超越Opus 4.8,后者以解决如微妙的判断和深入研究这类最难的问题而出名。 "Opus 4.8仍然是这些任务中更高准确度的首选模型,但Sonnet 5为开发者提供了比以往更高质量的低价选择,"Anthropic表示。"在Sonnet 5和Opus 4.8之间,用户可以调整努力水平,以找到成本和性能之间的最佳平衡。"根据博客中引用的测试者,Sonnet 5在完成复杂任务方面也表现出色,而之前的模型版本会中途停下并"在没有明确要求的情况下检查自己的输出"。Zapier的高级工程师Daniel Shepard在一份声明中表示:"我们给Claude Sonnet 5安排了一个两部分的工作——更新Salesforce账户等级,向企业客户发送发布公告——它完美地完成了所有任务。以前这会半途而废。对于日常自动化来说,这毫无疑问是个不错的选择。"在安全性方面,Sonnet 5表现出明显低于其前身的"不良行为"发生率,如与错误使用和欺骗行为的合作,使其在代理背景下更安全。它在拒绝恶意请求和避免提问注入攻击中的劫持尝试方面表现得更好。它的幻觉和奉承行为发生率也低于Sonnet 4.6。但需要注意的是,它在不当行为方面尚未达到Opus 4.8和Claude Mythos Preview的水平。"评估还表明,它在执行危险的网络安全任务方面的能力远低于我们目前的Opus模型,"博客文章中写道。Lovable的联合创始人Fabian Hedin在一份声明中表示,Claude Sonnet 5"清晰而一致地拒绝不安全的请求"。Hedin表示:"在Lovable,我们将强大的工具放在数百万创造者的手中。一个知道何时说不的模型和一个知道如何构建的模型一样重要。"当你通过我们文章中的链接购买时,我们可能会赢得少量佣金。这并不影响我们的编辑独立性。Rebecca Bellan是TechCrunch的高级记者,负责报道影响人工智能的商业、政策和新兴趋势。她的作品还出现在《福布斯》、《彭博社》、《大西洋》、《每日野兽》和其他出版物中。你可以通过发送电子邮件至rebecca.bellan@techcrunch.com与Rebecca联系或验证她的联系,或通过Signal以加密消息形式联系她,用户名为rebeccabellan.491。查看个人简介
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡