仪表坏了：开发者感觉AI速度提升20%，但实际测量慢了19%

← /writing 2025年8月19日 #ai #生产力 #metr #工程领导在过去的两年里，我一直认为AI的速度感与事实存在差距，这种差距来自我观察自己团队的表现。今年夏天，这种观点不再是个别案例。一项对经验丰富的开发者进行的控制测试表明，他们的感觉比实际快了约20%，但实际运行速度却慢了约19%。我们所依赖的工具显示的是反向结果。简短回答：AI加快了打字速度，而打字从来不是熟悉代码库的专家的瓶颈。它增加了额外的工作量，提示，等待，以及对输出的查看，这些常常是微妙的错误，正是在原本已经开销较大的阶段。一项控制试验显示，经验丰富的开发者在感知上快了约20%，但实际速度却慢了约19%。为什么在大型代码库中AI会让经验丰富的开发者变慢？在2023年12月，我写过，速度的感觉和速度的事实在我的团队中已出现了分歧，并承认这只是个别案例，虽然我看到却还无法证明。今年夏天，这个案例被一个秒表验证了，结果比我想象的更糟。METR对经验丰富的开源开发者进行了随机对照试验，这些开发者在他们熟悉的代码库中，使用当前的前沿AI工具。在工作开始前，开发者预计工具能加速他们的工作。工作之后，他们报告工具让他们加快了约20%。然而，根据计时测量，他们的实际速度慢了大约19%。自我报告和秒表之间的差距接近40个百分点。这个研究规模较小，涉及16名开发者和246个任务，作者谨慎地表示这并不证明AI在每个地方都让人变慢。对于初学者和绿色领域的工作，这一效果是正面的。请阅读警告说明。然后阅读一个没有警告的部分：最自信工具能加速他们的开发的人，恰恰是那些被测量证实变慢的人。那就是仪表坏掉的意义。每个工程领导者所依赖的工具，团队自身的速度感，不仅充满了噪音。它在大多数真实工作发生的特定条件下读取反向：经验丰富的人，在已有的代码中。我在这方面已经有了两年的观察，我想详细说明我之前的错误。我以为感觉与实际的差距是一个测量问题，是可以通过更仔细地查看仪表盘来解决的。事实比这更糟。感觉并不是干扰真实的嘈杂版本。它在积极误导，是AI采纳决策中最多的单一输入。每个声称团队现在速度快两倍的领导幻灯片都是建立在数据报告说是反向的基础上。团队级别的遥测从另一侧传递了相同的信息，而在这个小规模试验无法做到的范围内，Faros AI在1万多名开发者中观察到，拉取请求合并率上升了98%，拉取请求的大小超过了150%，审查时间上升了91%，但交付几乎没有净变化。31%的拉取请求完全没有审查。DORA的研究发现更高的AI采纳与交付稳定性显著下降相关，且这种损害持续到今年。GitClear分析了2亿行的变化代码，发现复制粘贴的代码上升，代码更改频繁，以及重构降低到10%以下，并且2024年是有记录以来开发者粘贴的代码多于重组的第一年。这些模式在每个案例中都是相同的：产生更多，合并更多，变动更多。交付数量相同，但交付时更加不稳定。我自2022年起不断提及的句子现在得到了测量验证。生成变得便宜，验证变得昂贵。我们去掉了旧的瓶颈，将工作直接交付到新的瓶颈，而新的瓶颈是审查。工作量在我们没有重新配置的一个阶段爆炸性增长，而我们信任的仪表盘却看不到成本，因为成本在下游显现，在事故、变动和审查者的疲惫中，与每个人都在欢呼的速度图表在不同的页面上。你可以观察到工具开发者在这个夏天承认了同样的观点。Windsurf，这个我自一月以来所使用的编辑器，在七月的一个周末被拆解。谷歌花费数十亿将其创始人和核心研究人员转移到DeepMind，剩余的部分被Devin的制造商吸收，而创始人离开去构建的东西是一个以代理为首的IDE。撇去代理前缀，它在坦白地说出沉默的部分。你不再坐在键盘前生成，而是转到一个仪表盘，上面的工作是审查代理所生成的内容并决定保留哪些。在工具市场中，最激进的下注相信工作的本质现在是验证。他们正在为这项研究刚刚计时的确切瓶颈建立驾驶舱。诚实的反驳，这在这里比平常更重要。这很可能是J曲线的下跌，而不是最终目的地。新工具在给你带来收益之前会先让你付出成本，而感觉与实际的差距的绝大部分是在成本在收益出现之前显现出来。