返回

文章详情

超能力6

Hacker News2026年6月30日 21:28

您还可以在我们的企业博客上阅读此帖子,网址为 https://primeradiant.com/blog TL;DR:超能力6的速度快得多,并且消耗的代币要少得多,能够获得相同的高质量结果。如果您正在最大化代币消耗,可能要跳过此版本,但如果您关心构建速度提高50%且成本降低60%,您一定会喜欢超能力6。一周前,我们准备发布超能力5.2。我们已经推迟了几次发布,以增加“再来一个改进”。我们增加了对Pi、反重力和Kimi Code的支持。我们使超能力在Codex和OpenCode以及Cursor上表现得更好。我们重写了许多超能力技能,使其与模型和工具无关,从而帮助它们在各处更加可靠。我们还撰写了一个新的贡献指南,说明如何为超能力添加对新的编码代理工具的支持。我们进行了大量工作,使视觉头脑风暴更易用、更安全且更可靠。我们还修复了一大堆错误,包括一个特别棘手的错误,导致代码审查子代理有时会审查整个分支,而不是单一任务。这本是一个伟大的发布。然而Anthropic发布(并停止发布)了Fable。在我获取Fable的那几天里,我尽可能利用它。没有秘密可言,我们从超能力用户那里听到的最常见的抱怨是代币非常昂贵,而超能力消耗了大量代币。使用超能力构建软件的速度比没有超能力慢。虽然“慢”这一点不应该重要——它发生在由自主子代理驱动的开发编排过程中的构建流程中。但它确实重要。慢并不好玩。昂贵也不好玩。超能力构建耗时更长和成本更高的许多原因,正是它能够为众多用户提供良好结果的原因。它做了大量的前期规划工作,以确保您的实现可以无需干预,强制在实施时进行严格的红绿测试驱动开发(TDD),然后超能力内部的协调者在两个方面审核每一个变更:代理是否完全按照要求实施,没有多也没有少;工作质量是否达到标准。仅仅因为它所做的事情,它的速度肯定会比进行未测试的实现然后就结束要慢。但我从来没有因为它慢和昂贵而感到开心。当Fable发布时,我决定看看它如何优化子代理驱动开发。我想我希望能减少约15%的代币消耗。我得到了这一点。还有更多。我们首先关注协调员到审阅者的交接。Fable分析了数千个子代理驱动开发会话,发现代码和规格合规审查子代理在审查过程中有时运行了大量git命令。简单地将编写的如何查找要审查的提交的说明切换为一个预生成的审查包的shell脚本,包含格式良好的diff和其他一些元数据,降低了代币消耗和实时开销约10%。当晚我上床睡觉时,我告诉Fable,在我睡觉时,看看能否再减少15%的实时开销和代币成本。在我上床睡觉时,我在内部Slack上发布了一条消息,建议我们评估如果将代码审查员和规格合规审查员合并会发生什么。我实际上不知道期待什么发生,但我不认为是醒来发现Fable已独立得出相同结论,进行了测试,并发现其在我们的评估套件中节省了我请求的额外15%。第二天晚上,我的目标更为雄心勃勃。/目标在这完成后,运行一个自我研究循环,以提高超能力构建循环的成本效率。以opus作为协调员进行测试。创建一个假设日志。运行实验。至少进行25个实验。Fable构建了一个完整的自我研究工具,并在夜间运行。您可以在GitHub上查看它构建的内容。**自我研究循环完成:25个实验关闭**(加上4个记录为待办事项),opus作为协调员,各个假设均在日志中预先注册并有预测,如今在评估中持久化 `docs/experiments/2026-06-11-build-loop-==autoresearch==.md` (a76ddc9)。循环开销约为165美元。循环发现的内容**船舶候选(E27):** opus控制器 + 诱导计划 + 条件海iku实现人员 + 简洁审查员合同 + 叙述配方 + 最终审查级别针 → **分形$6.24/$6.60**(组合配置上的成本为$11.67-$14.84)。种植缺陷门2/3,唯一失败被法庭归因于审査员的差异加上审查严格性——简洁合同在阅读审查员报告时明确免责。N=5的门电池在任何技能文本发货之前仍需偿还。**数字胜利:** 简洁审查员合同(−41%审查员输出,判决完整),叙述配方(−54%,零方差),条件实现者

赞助内容

NordVPN Next-gen Antivirus

本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。

请我喝杯咖啡