Anthropic/OpenAI 可能在你支付的每 $100 上花费超过 $1000

由于某种原因，我们在经历了 15 个月的 hiatus 后重新开始撰写关于生成式 AI/大型语言模型的文章（2025 年 10 月和 2025 年 6 月的那两篇并不能算作严肃的作品）。今天是关于 "与大型‘语言’模型编程" 的两篇文章中的第一篇，编码与 LLMs 被视为 LLMs 的“杀手应用”。我们打断此程序，稍作岔开，谈谈 Anthropic 最近发布的博客文章《当 AI 自我构建》。Anthropic 是否巧合地雇用了 Google 的市场营销人员？Anthropic 的博文是一堂暗示性写作的临摹课。警告虽然存在，但隐藏或夹在更夸张的声明之间。有一句 "我们可能错了" 的话，但在数千字的文本中，这一句话的角色在假设他们没有错误的情况下又有何意义呢？基准存在可疑之处（与人类相比，在编码任务上 50% 或甚至 80% 的成功率在完全自主编码中则基本无用（没有人类参与的编码）。每天检查 8 倍的代码行数真的好吗？如果你每天都在替换前一天的不合格内容呢？如果 LLM 以一种让代码行的有效性变得不那么可信的方式进行编辑呢？总的来说，它让我想起了 Google 关于其 "Willow" QM 计算芯片的误导性表述。顺便说一句，对于那句 "每天检查 8 倍的代码行数真的好吗？"。我的许多基于 LLM 的检查也是这样的，坦白说，我增加了我的检查次数只是为了可以回溯如果 Claude Code 丢失了。即使我在没有中间检查的情况下完成了所有工作，我提交的代码变更量也是原来的 7 倍……所以“8”这个估计与其说是生产力的增加，不如说是开销的增加，听起来更符合实际……如果我有时间写关于“与 Claude 编程”的深入内容，我们会再提到这一点。在我们谈及此时，这是篇漫长而曲折的文章（在这一方面我确实遇到了一些麻烦，抱歉），所以我们提供：TL;DR — 看起来 LLM 编程将不会是负担得起的（更不用说“AI 自我构建”了）。我一直在进行一些实验。实验是：“Claude Code 究竟有多好？”该实验仍在进行中，Claude Code 已经创建了大约 4 万行代码和一个可工作的（虽然不完整的）应用程序。我希望不久后能报告这一经验（但这是一个更难的写作）。与此同时，我体验到了成本问题，并导致了一个小规模的研究项目，这个项目产生了一些有趣的观察和结论：让我们从一个重要的观察开始：得益于 Claude Code 和我自己（生疏但足够扎实的）编程背景的结合，我能够让 Claude Code 创建这个应用程序（到目前为止尚未完成，但功能正常），否则我将无法在如此短的时间内创建它，如果有时间和精力的话——那就意味着：根本不可能。对于经验丰富的程序员来说，初始体验极其令人印象深刻，因为经验丰富的程序员知道，通常在创建这样的代码时需要自己投入多少理解；但是…… LLM 编程对于大多数用途并不是经济上可行的。现在之所以可行，是因为订阅得到了大量补贴。但是如果你使用每月 100 美元的 Claude Max 计划，并将其用于每周限制，将其用于完全“自主编码”（几乎没有人类参与），你将使用的代币数量将在 API 定价下让你花费超过 1000 美元。Anthropic 似乎在努力（Opus 4.7, 4.8）止住这种流失，即使这样成功而不损失质量，确实表明了重大改进的终结（即 S 曲线的结束）；而且……虽然与预算或前沿模型的简单对话确实变得“过于便宜而无法测量”，但需要递归/间接/工具使用/“思考”的严重应用（如编码、复杂推理）由于代币使用激增而变得非常昂贵。高强度下，顶级递归模型单一任务的费用估计在 API 费率下约为 75 美元。我见过一次查询使用了一百万个代币，这将意味着最多 25 美元的 API 费率；所以……向世界展示的经济模型似乎是基于需要最大化粗暴力量以接近复杂事务良好结果的任务的价值，同时隐瞒成本或谈论“过于便宜而无法测量”；因此：在这艘船未沉之前，尽情享受音乐，并准备好一个良好的救生筏。以下是我正在构建的应用程序的部分截图（并且在此过程中我玩得很开心）。它是一个真正的应用程序，可能会支持我创建我需要的图表（它是数据与图形的结合）。目标是调查“与 LLM 编程”，我正在构建的东西只是一个我认为可以使用的示例，因为我...