返回

文章详情

Fable 5 刚刚创造了新的 AI 自由职业工作表现记录 - 但它还不能取代人类

ZDNet2026年7月2日 20:29

Samuel Boivin/NurPhoto via Getty Images 关注 ZDNET:将我们添加为谷歌的首选来源。ZDNET 的主要要点 Fable 5 将 AI 在远程任务上的成功率提升至 16%。AI 能力依然参差不齐。不过,CAIS 表示,代理技能在不到八个月的时间里 "增长了四倍"。在短暂的休整后,备受赞誉的 Anthropic Fable 5 模型回归,并为自动化工作重新设定了标准。美国政府于 6 月 30 日重新授权该模型 - Anthropic 表示该模型的能力与 Mythos 5 相似,但 Mythos 5 仍仅对特定机构开放。 在被撤回之前,人工智能安全中心(CAIS)在其 2025 年 10 月发布的远程劳动指数(RLI)上测试了 Fable 5。它打败了 Anthropic 的 Opus 4.8 和 OpenAI 的 GPT-5.5,后者各自都是相对较新的模型,并被认为非常出色。还:如何打败 AI 算法并获得你梦想的工作 RLI 测量 "AI 代理能够完成真实的、经济上有价值的自由职业项目的频率 [...] 以及质量达到付费客户实际接受的水平",CAIS 在研究中解释称。这些项目可以包括计算机辅助设计、平面设计、数据分析、视频制作等。与其他类似的人类能力测试一样,模型创建的每一个交付物都由人类根据专业标准交付进行评估。所得到的自动化率反映了评估者认为 AI 所产生的作品与人类专业工作同等或更好的项目的分布。 CAIS 要求 Fable 5、GPT-5.5 和 Opus 4.8 设计一个订婚戒指的 3D 模型、制作一个视频广告,以及规划一个平面图,和其他测试。研究人员为每个模型提供了人类生成的输入文件以便开始,就像你为人类自由职业者准备相关文档和信息一样。还:Anthropic 的 Mythos 发展速度超出预期,报告显示 AI 安全机构 Fable 5 达到了 16.1%的自动化率,创下基准新记录 - 是 Opus 4.8 的两倍,后者评分为 8.3%。GPT-5.5 排在第三位,得分为 6.3%,但 CAIS 指出这三种模型的得分都超过其迄今为止评估的所有模型。 CAIS 表示:“为了提供背景,之前公布的领跑者座位为 4.17%(Opus 4.6与 Claude Cowork 脚手架),当 RLI 发布时这一领域的最高得分为 2.5%。” CAIS 表示:“前沿在八个月内增长了四倍以上,这清楚地表明经济能力强的 AI 代理正在迅速进步。” CAIS 对其 RLI 基准测量的自动化率。CAIS 指出,由于政府在 6 月中旬关闭了 Fable 5,其测试受到限制,但即便是这些部分结果也使该模型脱颖而出。“即使在最坏的情况下假设 Fable 5 丧失每一个缺失项目,其自动化率仍将为 14.6%,高于任何其他模型,”研究人员表示。 这对自由职业者的意义 虽然 AI 模型加速的比例在短短几个月内显著,但这并不意味着会在各个领域自动替代或损失自由职业工作。16% 还远远未达到 100%。此外,尽管有明显进展,AI 仍然不是每个组织的完美解决方案;安全问题和其他采纳障碍通常使 AI 工具的集成对大多数公司来说变得缓慢且需要多个步骤的过程,至少在开始阶段如此。为了完全取代人类自由职业者,组织可能需要一个代理网络来检查工作质量、预算和时间表等元素;这种权衡不是一对一的。还:我让 Gemini 和 Claude 写我的电子邮件回复 - 但只有一个听起来像我。 CAIS 尝试用 "LLM 法官" 替换人类评估者,表面上是为了看看这个实验距离人类直接参与还有多远,但该模型失败了。CAIS 解释道:“评估 RLI 的交付物本身就是一项要求高的、权利式任务。正确完成这项工作意味着以正确的专业应用程序打开项目文件,熟练操作这些应用程序,并形成客户会做出的判断,而这些计算机使用技能正是当今代理仍然最薄弱的领域。” 还:我如何设置 OpenAI API 的使用限制,以阻止代理超支和其他 AI 账单噩梦。也就是说,能力的提高可能会缩小一些已经成功集成 AI 的特定公司的自由职业机会。此外,如果计算机使用技能是当前限制,并有望根据行业对日益代理化模型的投资而改善,那么这个障碍最终可能会消失。就模型在其他测量代理技能的基准上提高的速度而言,这可能比我们想象的到来得更快。说到时间:CAIS 还发现,当人类完成任务所需的时间更长时,这并不一定意味着 AI 完成这些任务会更难。这种时间视角的分析在编码等领域是成立的,但不适用于 RLI 测量的更广泛的远程任务。现在,很难从中得出结论。

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡