从《堡垒之夜》到机器人：通用直觉在赌注上筹集了23亿美元，认为视频游戏可以训练适用于现实世界的AI代理

我刚进入通用直觉位于纽约办公室的研发楼层，这家公司的31岁联合创始人兼首席执行官Pim de Witte就引导我注意到一个放在站立桌上的显示器。有人似乎在玩《堡垒之夜》。但那并不是一个人。公司首席产品官Kent Rollins满脸光彩地说：“我们的代理已经连续玩了100个小时。”在我沉浸于这个AI在游戏虚拟环境中导航的景象之前，我听到了一个大型四足机器人接近的电子脚步声。“为玩《堡垒之夜》的代理提供动力的同一个大脑也在为这个机器人提供动力，”de Witte告诉我。携带着流式直播机器人单个摄像头的笔记本电脑的数据分析师Josh Duplantis插嘴解释说，机器人的默认模式是“探索”。依靠那台相机，它的单个“眼睛”，这个巨大如虫的机器人走到我面前，绕着我转了一圈，然后继续进入办公室。它偶尔会碰到椅子的腿，或撞到一个不注意的垃圾桶，就像一个还不太懂得自己与周围世界关系的幼儿。Duplantis表示，仅有8分钟的现实世界机器人数据就足以微调出四足机器人的AI模型。此外，这些数据是在街道上收集的，而不是在机器人当前导航的办公室内。能从游戏玩法到仿真再到具体表现进行概括的代理模型是通用直觉存在的理由。而该模型弄清自己在世界中的位置的能力获得了一些大咖的支持。周四，通用直觉表示其在23亿美元估值的情况下筹集了3.2亿美元，确认了TechCrunch之前的报道。这轮融资使通用直觉的总披露资金达到了4.54亿美元，此前去年10月启动时筹集了1.34亿美元。这家初创公司是从de Witte的另一家公司Medal中剥离出来的，后者允许玩家上传和分享视频游戏片段。几亿小时的上传游戏玩法提供了训练通用直觉模型的初始数据集，以进行时空推理——即理解如何在空间和时间中移动。但关键成分并不是游戏画面；而是嵌入在这些片段中的行动标签：记录玩家按下哪些按钮以及何时按下的确切情况。de Witte表示，许多竞争对手都在试图仅从视频中推断动作，而他认为这远远不够。“我们将其视为未来预训练的下一个阶段，”de Witte说道。“我们有一个单一模型，可以对屏幕上的《堡垒之夜》信息作出反应并采取行动，同时也能以一种大型语言模型永远无法做到的方式对现实世界动态作出反应。”在一个时刻，de Witte让我使用一台运行通用直觉世界模型的笔记本电脑，这个模拟环境是逐帧生成的，而不是由传统游戏引擎渲染的。像我在测试世界模型时常做的那样，我径直走向一系列墙壁。在我尝试过的其他演示中，您控制的代理有时会直接穿过墙壁，但这个没有。从数百万小时的游戏玩法中，它以某种方式学会了墙壁就是墙壁，梯子是用来攀爬的，阴影会随着太阳的移动而延长。对通用直觉来说，这个世界模型不是产品；而是训练环境（在内部被称为“健身房”）。该公司最终希望销售代理模型本身，de Witte认为，嵌入在游戏玩法中的行动数据帮助模型以一种提供更丰富因果理解的方式分辨“自我”和“环境”。尽管通用直觉的技术在演示中看起来令人印象深刻，但该公司并不是唯一尝试破解这个问题的公司。此外，让这样的模型能够在物理世界中大规模保持的做法尚未实现。大多数这类方法需要大量缓慢且昂贵收集的现实世界数据。通用直觉的赌注是，游戏玩法是一个可扩展的捷径。它的投资者对此赌注也很满意。通用直觉的最新轮融资由Khosla Ventures主导，其他参与者包括General Catalyst、杰夫·贝索斯、埃里克·施密特、尼科·罗斯伯格以及谷歌DeepMind和麻省理工学院的研究人员。这轮融资的绝大多数将用于扩展计算能力。通用直觉与CoreWeave签署了一项协议，并计划专注于下一个版本模型的预训练。还有一部分资金已被划拨用于在夏末之前更广泛地提供其API。负责这一轮融资的Vinod Khosla表示，他被de Witte的愿景和公司的专有数据位置所吸引。“如果你看看大型语言模型，当推理出现时，那是一次量子飞跃，”Khosla在一次电话采访中告诉我。“在世界模型中，我认为量子飞跃是AI中直觉的出现，一种类似人类的直觉能力。您在游戏中拥有的人类行动数据和反应数据是直觉出现的关键部分。”通用直觉依赖于其愿景打造一家公司。