项目获取：第二阶段

迈克尔·伊利、C·丹尼尔·弗里曼和凯文·K·特洛伊在2025年8月，我们进行了一项实验，以观察克劳德在多大程度上帮助非机器人专家的Anthropic员工执行复杂（且有趣）的任务，使用现成的机器人四足兽（以下简称为robodog）。我们称之为项目获取。我们发现，当时我们最先进的模型（克劳德Opus 4.1）的访问，帮助一个团队显著超越了另一个只能依靠互联网和自己的聪明才智的团队。使用克劳德的团队完成得更多，速度更快。在我们把同事拖到仓库进行实验之前，我们再次确认Opus 4.1是否能够完全独立完成这些任务。毫无疑问，它做不到。就像没有克劳德的团队一样，它在解决如何连接到机器人的初步任务上卡住了。但人工智能模型的进步飞快，甚至比那个几乎冲撞到我们某个人类团队的失控robodog还要快。我们认为是时候重温项目获取，看看我们的新模型是否能够超越上一代。不仅如此，克劳德Opus 4.7——在没有人类协助的情况下——在所有参与者完成的任务中，速度大约是最快三个人类团队的20倍。这并不意味着大型语言模型（LLMs）现在已经解决了机器人技术。远非如此。最新的克劳德模型在用机器人精确移动海滩球（项目获取的“获取”部分）方面仍然挣扎。这些实验中的任务也没有涉及机器人控制的更具挑战性、低级别的元素，比如开发特定的激励策略。不过，我们再次看到了一个模式，首先模型对人类有帮助。然后，人类对模型有帮助。最后，模型能够大部分独立完成任务。我们在网络安全领域看到了这一点，现在这种动态开始在人工智能与物理世界的交界处显现出来。我们做了什么？最初的项目获取让Anthropic公司的员工（随机分配与或不与克劳德合作）在以下步骤中进行操作：使用制造商提供的控制器操作robodog，连接到robodog的视频和激光雷达传感器，编写和操作程序以手动控制robodog，开发监控robodog在空间中路径的方法，编写程序以检测海滩球，最后将所有东西结合在一起以自主取回球。在此次自主更新中，我们不能要求克劳德使用物理控制器，也没有评估研究人员使用克劳德编程控制器取回球所花费的时间（尽管我们确认它按预期工作）。在剩余的任务子集上，我们进行了三次Opus 4.7的试验，采用自适应思维，并在克劳德代码中将努力设置为最大。我们测量了每个目标的经过时间，并对模型的成功进行了定性评估。我们研究人员的角色仅限于将运行克劳德代码的笔记本电脑插入robodog，输入初始提示，批准命令，并批准模型进行下一个任务。克劳德擅长什么？很简单：在至少有一个人类团队完成的每个任务中，Opus 4.7完成相同任务的速度至少比人类快十倍。如果考虑到两个团队都完成的四个任务，Opus 4.7平均比没有克劳德的团队快37倍，比有克劳德团队快18倍。下表比较了原始团队（克劳德团队和没有克劳德团队）与Opus 4.7在我们在第二阶段测试的所有任务上的速度。虽然人类在选择多种不同的方法与机器狗的传感器接口时感到挣扎，但Opus 4.7能够快速识别最佳路径。它编写的许多代码在第一次尝试时就有效（这并不是克劳德团队或没有克劳德团队在原始实验中的情况）。事实上，我们可以看到Opus 4.7的效率证据，当我们查看它生成的代码量时：它的成功率与两个团队相当或更高，但生成的代码量几乎只有克劳德团队的十分之一。Opus 4.7并不完美。例如，它默认使用过时的物体检测算法。但即便如此，它能够绕过该问题并找到有效的解决方案。我们观察到完成模型的步骤所需时间的内部任务方差很小（以绝对数值计算）。（尽管上述的次优算法选择可能是导致其中一个海滩球检测试验所需时间远长于其他试验的原因。）总体而言，对于本实验中在它能力范围内的任务，克劳德现在相当可靠。（请参阅下一部分以分析克劳德仍无法完成的内容。）值得强调的是（正如我们在之前的帖子中所做的），这种进展并不是有意识地提高我们模型的机器人能力的结果。这些改进……