Fable 5 刚刚创造了新的 AI 自由职业工作表现记录 - 但它还不能取代人类

Samuel Boivin/NurPhoto via Getty Images 关注 ZDNET：将我们添加为谷歌的首选来源。ZDNET 的主要要点 Fable 5 将 AI 在远程任务上的成功率提升至 16%。AI 能力依然参差不齐。不过，CAIS 表示，代理技能在不到八个月的时间里 "增长了四倍"。在短暂的休整后，备受赞誉的 Anthropic Fable 5 模型回归，并为自动化工作重新设定了标准。美国政府于 6 月 30 日重新授权该模型 - Anthropic 表示该模型的能力与 Mythos 5 相似，但 Mythos 5 仍仅对特定机构开放。在被撤回之前，人工智能安全中心（CAIS）在其 2025 年 10 月发布的远程劳动指数（RLI）上测试了 Fable 5。它打败了 Anthropic 的 Opus 4.8 和 OpenAI 的 GPT-5.5，后者各自都是相对较新的模型，并被认为非常出色。还：如何打败 AI 算法并获得你梦想的工作 RLI 测量 "AI 代理能够完成真实的、经济上有价值的自由职业项目的频率 [...] 以及质量达到付费客户实际接受的水平"，CAIS 在研究中解释称。这些项目可以包括计算机辅助设计、平面设计、数据分析、视频制作等。与其他类似的人类能力测试一样，模型创建的每一个交付物都由人类根据专业标准交付进行评估。所得到的自动化率反映了评估者认为 AI 所产生的作品与人类专业工作同等或更好的项目的分布。 CAIS 要求 Fable 5、GPT-5.5 和 Opus 4.8 设计一个订婚戒指的 3D 模型、制作一个视频广告，以及规划一个平面图，和其他测试。研究人员为每个模型提供了人类生成的输入文件以便开始，就像你为人类自由职业者准备相关文档和信息一样。还：Anthropic 的 Mythos 发展速度超出预期，报告显示 AI 安全机构 Fable 5 达到了 16.1%的自动化率，创下基准新记录 - 是 Opus 4.8 的两倍，后者评分为 8.3%。GPT-5.5 排在第三位，得分为 6.3%，但 CAIS 指出这三种模型的得分都超过其迄今为止评估的所有模型。 CAIS 表示：“为了提供背景，之前公布的领跑者座位为 4.17%（Opus 4.6与 Claude Cowork 脚手架），当 RLI 发布时这一领域的最高得分为 2.5%。” CAIS 表示：“前沿在八个月内增长了四倍以上，这清楚地表明经济能力强的 AI 代理正在迅速进步。” CAIS 对其 RLI 基准测量的自动化率。CAIS 指出，由于政府在 6 月中旬关闭了 Fable 5，其测试受到限制，但即便是这些部分结果也使该模型脱颖而出。“即使在最坏的情况下假设 Fable 5 丧失每一个缺失项目，其自动化率仍将为 14.6%，高于任何其他模型，”研究人员表示。这对自由职业者的意义虽然 AI 模型加速的比例在短短几个月内显著，但这并不意味着会在各个领域自动替代或损失自由职业工作。16% 还远远未达到 100%。此外，尽管有明显进展，AI 仍然不是每个组织的完美解决方案；安全问题和其他采纳障碍通常使 AI 工具的集成对大多数公司来说变得缓慢且需要多个步骤的过程，至少在开始阶段如此。为了完全取代人类自由职业者，组织可能需要一个代理网络来检查工作质量、预算和时间表等元素；这种权衡不是一对一的。还：我让 Gemini 和 Claude 写我的电子邮件回复 - 但只有一个听起来像我。 CAIS 尝试用 "LLM 法官" 替换人类评估者，表面上是为了看看这个实验距离人类直接参与还有多远，但该模型失败了。CAIS 解释道：“评估 RLI 的交付物本身就是一项要求高的、权利式任务。正确完成这项工作意味着以正确的专业应用程序打开项目文件，熟练操作这些应用程序，并形成客户会做出的判断，而这些计算机使用技能正是当今代理仍然最薄弱的领域。” 还：我如何设置 OpenAI API 的使用限制，以阻止代理超支和其他 AI 账单噩梦。也就是说，能力的提高可能会缩小一些已经成功集成 AI 的特定公司的自由职业机会。此外，如果计算机使用技能是当前限制，并有望根据行业对日益代理化模型的投资而改善，那么这个障碍最终可能会消失。就模型在其他测量代理技能的基准上提高的速度而言，这可能比我们想象的到来得更快。说到时间：CAIS 还发现，当人类完成任务所需的时间更长时，这并不一定意味着 AI 完成这些任务会更难。这种时间视角的分析在编码等领域是成立的，但不适用于 RLI 测量的更广泛的远程任务。现在，很难从中得出结论。