它仍然无法完成我的工作：四年目标不断变化的历程（2022-2026）

四年间目标不断变化，我在2022年12月开始记笔记，主要是为了记录恐慌为何被过度夸大。这些笔记变成了这个。橙色框中的引用是真实的。你可以查找它们。灰色评论是对几千个评论区的概括。你知道那些评论。你可能写过一些。我也是。2022年11月聚会把戏 ChatGPT在周三推出。到周末，它拥有了一百万用户，我的整个信息流都是它为无法编译的代码道歉的截图。它发明函数。它幻觉出整个API。我问它关于《贪食蛇》，那个你可以在青少年时期的一个下午编写的游戏。它给我一个在第一步就自食其果的蛇。五天后，Stack Overflow禁止它：“由于从ChatGPT获得正确答案的平均率太低，ChatGPT生成的答案的发布对网站实质上有害。” Stack Overflow临时政策，2022年12月5日裁决很简单，也就是我的看法：一个随机的鹦鹉，学会了像资深开发者一样说话，但从未接触过编译器。目标不要再打电话我，直到它停止编造东西。连贪食蛇都做不到。 2023年3月考试季节 GPT-4上线。一个提示现在可以让你获得一个有效的贪食蛇。那个游戏在四个月前它出丑时就被弄得一团糟。评论区瞬间调整，速度从未减缓：与此同时，聚会把戏开始通过考试。OpenAI声称它在律师考试中处于90百分位。微软研究人员发表了一篇名为“人工通用智能的火花”的论文。一篇真实的论文，标题也真实。公平地说，怀疑论者在这里确实给了重击。后来重新评估将律师考试的分数调整为接近60百分位，在实际上通过的人的48百分位之间。双方都在扔数字。只有一方在扔与不断改进的事物相关的数字。目标玩具脚本和考试并不是工程。打个电话给我，当它构建出真实的东西时。比如说，一个真正的游戏。在3D。 2024年3月预先录制的演示一家名为Cognition的初创公司宣布Devin是“第一款AI软件工程师”。演示视频一周内无处不在。一个月后，一位名叫Carl Brown的资深开发人员（YouTube频道：Internet of Bugs）几乎逐帧进行分析。令人印象深刻的部分经过了精心策划。Devin没有完成演示中的Upwork任务。它生成了自己的错误，然后英雄般地修复了它们。怀疑论者高高兴兴地庆祝胜利。我看了两遍剖析视频。感觉真不错。那个春天，Nvidia的首席执行官在迪拜的一个舞台上站着：“我们的工作是创造不需要编程的计算技术，编程语言是人类。世界上每个人现在都是程序员。” Jensen Huang，世界政府峰会，2024年2月我认识的没有人那年放弃编程。但我认识的每个人都默默安装了Copilot。目标演示都是预先录制的。打个电话给我，当真实开发人员将其用于真实工作，每天使用时。 2024年10月财报电话会议 “谷歌超过四分之一的新代码由AI生成，然后由工程师审核并接受。” Sundar Pichai，Alphabet财报电话会议，2024年10月评论区没有眨眼。这只是自动完成接受指标。样板代码不算。半数是导入语句。而且好吧，可能其中一些确实是。但是“谷歌的四分之一”是个奇怪的东西，被称作聚会把戏。目标生成行不是工作。打个电话给我，当它接受工单并交付功能时。 2025年2月感觉 “我称之为'气氛编程'的新型编码，完全沉浸于氛围中，拥抱指数，并忘记代码的存在。” Andrej Karpathy，2025年2月2日三周后，Pieter Levels通过提示创建了一个多玩家3D飞行模拟器。他大约花了三个小时。他没有任何游戏开发经验。他将其放在网上，地址是fly.pieter.com。还记得2023年的目标吗？一个真正的游戏，在3D里？这里来了。它向真实客户销售29.99美元的战斗机和飞艇广告，并声称在十七天内达到100万美元的年营业额。评论区确切知道该怎么做：同一季节：扎克伯格告诉乔·罗根，Meta预计AI将在一年内能像“中级工程师”一样编码。达里奥·阿莫代伊表示，AI可能在六个月内写出90%的代码。氛围编程催生了自己的灾难类型。泄露的API密钥。开放的数据库。“我的应用被黑客入侵，我不知道去哪里找”的事后分析。资深开发人员并不感到印象深刻，他们有证据。混乱是真实的。安全漏洞非常真实。目标玩具和原型，当然。打个电话给我，当它真正投入生产并生存下来时。 2025年7月怀疑论者正确的那个月一家名为METR的研究小组邀请了十六位经验丰富的开源开发人员，在他们自己的成熟代码库上使用AI工具，并进行测量。开发人员使用AI的速度慢了19%。他们相信自己快了20%。即使在看到时钟之后。评论区饕餮盛宴，他们实至名归。美好的一天