将机器人视频细分为可执行子任务

我们介绍了WGO-Bench，这是一个新的基准，用于测试机器人子任务注释在100个第一人称和机器人视频剧集中的性能，共有743个注释片段，涵盖62个独特的高层任务指令。我们进行了超过60次实验，以寻找最佳的子任务注释管道：最佳的子任务分割方法达到0.306 F1，子任务标注的准确率达到61.0%，而最佳的端到端管道达到0.168 F1。Gemini模型无疑是这一任务的最佳选择，最佳模型（Gemini 3.5 Flash）超过了最佳非Gemini模型（GPT-5.5）24.5%。我们最佳的端到端方法利用接触表格以降低推理成本，视频的费用为每小时2.64美元（批量定价），大约是人工注释的19倍更便宜。整个管道是开源的，并在Refiner中实现；请参阅现成的子任务注释示例，以便在自己的视频上运行。想象一下走进一个你从未见过的厨房，指示是：“给我做一份匈牙利炖菜。”如果你从未做过，你需要学习它。要做到这一点，你需要的不仅仅是最终的指令；你还需要步骤、物品和它们的位置：打开最左边的架子，拿出切菜板，把它放在台面上，拿起一个洋葱，剥皮，把它放在板上，切碎，等等。机器人学习也面临类似的问题。为了教机器人新的长期任务，我们需要的不仅仅是模糊的高层指令。对于机器人演示视频，有用的信号是每一刻正在进行哪项子任务，以及一项子任务何时结束、下一项子任务何时开始。子任务正在成为最近机器人工作的一个核心学习信号。Zawalski等人（2025年）在其论文《通过具身链式思维推理进行机器人控制》中使用了子任务以及计划与行动之间的链式思维推理。最近的π系列（《物理智能等，2025年》）和RT-H（《Belkhale等，2024年》）同时使用语义子任务预测与低级动作学习，均显示出这种额外监督所带来的显著收益。子任务在直接策略训练之外也很有用：SARM（《Kim等，2025年》）利用它们进行奖励建模。在π0.5中，VLA首先根据观察和总体提示预测一个语义子任务，然后通过流匹配动作专家预测一个低级动作块，条件是该子任务。随着机器人数据收集规模的不断扩大，我们需要能够跟上的注释管道。支付人工注释员观看每小时视频很快就变得不可行。尽管结果令人鼓舞，但关于如何大规模挖掘子任务注释的公开材料很少。我们找到的最接近的公开写作是Scale的密集视频字幕撰文，但它只专注于手部/第一人称操作视频，并且是从已经分离的片段开始的。对于机器人来说，这跳过了两个更困难的问题：处理原始剧集并决定一项子任务何时结束、下一项子任务何时开始，以及测试相同的方法能否从第一人称视频转移到机器人摄像头设置。为了填补这一空白，我们创建了一个可扩展的管道，让模型在没有任何人工干预的情况下注释子任务，成本为每小时2.64美元（批量定价），这使其大约比人类便宜19倍。此文章分享了我们从这项工作中学到的经验教训，包括我们为从第一人称和机器人视频挖掘子任务所找到的最佳端到端方法，以及我们新的机器人子任务注释基准：WGO-Bench（正在发生什么基准）。完整的管道在我们的机器人数据处理框架Refiner中开源。要在自己的数据上运行它，请参见现成示例代码。为了反复迭代并选择最佳方法，我们需要一个基准。