收集机器人训练数据是肮脏而不光鲜的工作。有些人工智能实验室已开始支付XDOF来做这件事

两周前，OpenAI表示将重新启动其在2021年关闭的机器人项目——这表明最大的人工智能实验室正在争相教机器在物理世界中操作。但构建有能力的机器人需要人工智能行业尚未具备的东西，即与语言模型相匹配的训练数据。这种差距正在创造一种新的基础设施业务。与在大量公开可用文本上训练的大型语言模型不同，机器人需要能够捕捉物理交互的数据，而这种数据几乎不存在。YouTube视频和临时工拍摄的素材精度低，难以与物理世界协调。XDOF（发音为“ecks-doff”）今天从保密中浮出水面，押注于人工智能的下一个重大瓶颈不是模型或芯片，而是教机器人如何与物理世界互动所需的数据反馈循环。该初创公司旨在构建数据管道、收集工具和注释系统，这些是前沿实验室和机器人公司难以自己构建的——并从Thrive Capital、Spark Capital、a16z、Lux和WndrCo那里筹集了7000万美元以实现这一目标。联合创始人兼首席执行官Philippe Wu表示，XDOF目前拥有约60名员工，已经与20位客户合作，包括几家前沿人工智能实验室，但不能透露他们的名字。“所有顶尖实验室都在尝试追求机器人技术，”吴说。“我们已经看到在语言模型竞争中稍微落后的一些失败……你不想陷入这种技术追求太晚的情况，而大家都在这个船上，物理人工智能是下一个前沿。”吴作为加州大学伯克利分校的博士生亲自遇到了这个问题。他专注于使机器人从大规模数据集中学习技能。只有一个问题。“我们没有可供使用的大规模数据，”他告诉TechCrunch。“出现了一个鸡与蛋的问题——我们首先需要收集数据，然后才能问如何训练机器人基础模型。”吴与未来的XDOF联合创始人兼首席技术官Fred Shentu合作了一个名为GELLO的项目，这是一个低成本的遥控系统，让人工操作员控制机器人手臂生成训练数据。“这最终成为了机器人领域一篇非常有影响力的论文，因为很多人都有类似的需求和瓶颈，很多人开始利用这种设备进行数据收集，”吴说。看到这个机会，吴、Shentu和第三位联合创始人兼首席运营官Nemo Jin于2024年10月启动了XDOF，以提供一个数据生态系统，供追求机器人模型的公司使用。鉴于单单提供数据可能是一个死胡同的业务，公司还专注于数据清理、工具和注释——为机器人训练师创建自我强化的反馈循环。作为起点，公司与加州大学伯克利分校的人工智能研究实验室合作，发布它认为是史上最大的高质量机器人训练数据集，称为ABC。它包含130,000条机器人操作数据轨迹、300小时的模拟和100小时的评估。这样的规模化预训练数据在学术界从未可用。“我们在语言、图像生成和其他领域看到，当模型和数据被发布时，社区会取得一些你未必预料到的成就，”参与组织发布的伯克利博士生David McAllister告诉TechCrunch。团队已经利用这些数据训练机器人完成折叠T恤和扁平化箱子等基准任务，或将AirPods放入其充电盒中。无限自由度该公司计划在数据金字塔的三个层级上工作。最有价值的层级是收集到的遥控数据，直接在实际部署的机器人上收集；接下来是遥控机器人收集更一般数据，如GELLO；最后是“自我中心”数据，由人类执行日常任务收集，XDOF计划构建自己的可穿戴传感器。“你的相机选择将影响数据质量——这将影响你的手部跟踪算法的表现，”吴说。“如果你一开始没有设计好硬件，你收集的数据可能会有你未预见到的具体问题。”公司计划在全球范围内招聘和培训大量的遥控操作员和自我中心数据操作员——这是一个劳动密集型的模式，提出了一个明显的问题：为什么大型实验室不自己进行这些数据生产工作？“你需要一个数十万平方英尺的仓库和数百个机器人，”吴说。“你需要维护这些机器人，校准它们的物理参数，并正确训练操作员。”这是一个需要专注、资本和运营规模的建设过程，大多数人工智能实验室宁愿外包——这正是XDOF所押注的市场。XDOF这个名字是对机器人术语“自由度”的一种玩味，表示