返回

文章详情

克劳德十四行诗 5

Hacker News2026年6月30日 17:59

克劳德十四行诗 5 被打造为迄今为止最具代理能力的十四行诗模型。它能够制定计划,使用浏览器和终端等工具,并在一个几个月前还需要更大且更昂贵的模型才能达到的水平上自主运行。对于许多开发者而言,代理 AI 时代从十四行诗级模型开始:克劳德十四行诗 3.5、3.6 和 3.7 是展示编程和工具使用方面令人印象深刻技能的第一款模型。然而,更近一步,我们在 Opus 级模型中的代理能力的提高是最明显的。十四行诗 5 缩小了这一差距:它的性能接近于 Opus 4.8,但价格更低。与其前任十四行诗 4.6 相比,在推理、工具使用、编码和知识工作等重要方面的代理性能上都有显著的提升:十四行诗 5 在各种评估中的得分与十四行诗 4.6 和 Opus 4.8 (作为参考的更通用能力模型)相比。克劳德十四行诗 5 系统卡详细报告了一系列更广泛的评估。我们的安全评估发现,十四行诗 5 的不良行为率总体上低于十四行诗 4.6,并且在代理上下文中使用时更安全。评估还显示,它执行网络安全任务的能力远低于我们当前的 Opus 模型。从今天起,克劳德十四行诗 5 在所有计划中可用:它是免费和专业计划的默认模型,并可供 Max、Team 和 Enterprise 用户使用。它还可以在克劳德代码和克劳德平台上使用,推出时的介绍价格为每百万输入标记 2 美元和每百万输出标记 10 美元,直至 2026 年 8 月 31 日,之后价格为每百万输入标记 3 美元和每百万输出标记 15 美元。开发者可以通过克劳德 API 使用克劳德十四行诗 5。使用克劳德十四行诗 5 时,下面的图表比较了十四行诗 5、十四行诗 4.6 和 Opus 4.8 在不同努力级别下的代理搜索评估 BrowseComp 和计算机使用评估 OSWorld-Verified 的性能。十四行诗 5(橙色线)在严格的性能上超越了十四行诗 4.6(灰色线)。Opus 4.8(黄色线)仍然是这些任务中更高精度的模型,但十四行诗 5 为开发者提供了价格更低但质量更高的选择。用户可以在十四行诗 5 和 Opus 4.8 之间调整努力水平,以找到成本和性能之间的最佳平衡。早期访问合作伙伴的反馈一致:十四行诗 5 的代理能力远胜于其前代。测试者描述了它如何完成复杂任务,而早期的十四行诗模型则中途停下,如何在未被明确要求的情况下检查自己的输出,以及如何以吸引人的价格完成所有这些代理工作:克劳德十四行诗 5 为我们的代理提供了强大的执行层,以进行多步骤的软件工程工作。它能够在混乱的技术背景下很好地处理持续编码、工具使用和调试,并且在需要后续和技术基础的工作流程中特别有效。我们给克劳德十四行诗 5 分配了一项两部分的任务——更新 Salesforce 账户等级,向企业联系人发送启动公告——它完成了从头到尾的任务。而这以前通常会在中途停顿。对于日常自动化来说,克劳德十四行诗 5 以更少的成本完成更多工作。相同的输出质量,更少的步骤。它也始终干净、持续地拒绝不安全的请求。在 Lovable,我们将强大的工具放在数百万构建者的手中。一个知道何时拒绝的模型与一个知道如何构建的模型同样重要。我们让克劳德十四行诗 5 与数十个我们最具挑战性的真实拉取请求进行测试,它独立完成了每一个请求,带来了经过测试和验证的结果,从而让我们的工程师能够专注于判断、决策和最终签署。我请克劳德十四行诗 5 调查一个漏洞。未经提示,它写了一个重现的测试,实现了修复,然后将其存放,以确认在没有更改的情况下漏洞是否复发。所有这一切都在一次性通过中完成。使用克劳德十四行诗 5,代理保持计划,遵循我们的惯例,并以高效的成本发布干净的多步骤更改。克劳德十四行诗 5 在棕地代码上表现最佳——竞争条件、隐藏测试、无人愿意触及的部分。它将故障追溯到实际根本原因,而不是修补症状。克劳德十四行诗 5 在伊芙的原告法任务中处于帕累托前沿。我们在法律研究和分析方面看到了最明显的增长,其性价比让迁移的选择变得轻而易举。ClickHouse 代理实时探索数据并即时生成洞察,因此在测试新模型时,洞察的时间至关重要。克劳德十四行诗 5 在更紧凑的步骤中推理,明显更快地为我们的用户提供答案。这种速度是我们的客户可以感受到的区别。在 Pace,我们的计算机使用代理在我们运营团队已经使用的系统上运行保险工作流程——提交接收、FNOL、损失报告——克劳德十四行诗 5 始终取得一致的成效。

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡