Decart的新世界模型可以模拟数小时的真实驾驶 - 有一些警告

AI初创公司Decart周三推出了Oasis 3，这是其最新的交互式世界模型，能够实时生成真实感驾驶环境，TechCrunch独家报道。该模型目前通过API提供。该初创公司最初目标是需要大规模模拟稀有驾驶场景的自动驾驶汽车公司，并计划扩展到机器人技术和其他物理AI应用。但更大的赌注是放在开发者身上：通过在第一天就提供API访问，Decart希望围绕世界模型建立一个开发者生态系统，就像OpenAI在语言模型上所做的一样。“这将是第一个可供人们实际编程使用的世界模型，”Decart的联合创始人兼首席执行官Dean Leitersdorf对TechCrunch表示。“我认为会有一个完整的开发者社区在这个基础上出现。”该初创公司已经有超过100,000名开发者的社区，其中许多人正在基于其实时视频模型Lucy开发产品，主要集中在电子商务和直播领域。Oasis 3基于该基础模型，代表了公司向物理AI进军的努力。访问费用定价为每秒0.02美元，企业定价取决于用例，Decart表示。Decart正处于一个日益拥挤的世界模型领域。去年，谷歌发布了研究预览版的Genie 3，李飞飞的World Labs推出了用于商业用例的Marble，视频生成初创公司如Luma和Runway也在将其物理感知视频模型转换为世界模型。Oasis 3的发布是在Decart两年前筹集3亿美元后几周，Leitersdorf表示这次融资是由于“我们构建的模型在电子商务、直播和物理AI中的需求激增”。此轮融资使Decart的估值接近40亿美元，并吸引了一系列战略投资者，如丰田、Adobe和eBay。Leitersdorf表示，这些公司都是潜在客户。现有投资者Nvidia也参与了此轮融资。Oasis 3的优势在于模型的真实感和无限生成能力。这得益于Decart在其另一主打产品上的高效技术：DOS（Decart优化堆栈）软件，使模型能够在Nvidia、Amazon和Google硬件上高效运行，使其模型的运行成本远低于竞争对手。“这是建立在我们整个实时堆栈之上的，我们优化到硬件层面，”Leitersdorf说。“通过如此垂直整合，我们能够在行业内比任何其他公司便宜一个数量级以上来运行这些模型。”根据Leitersdorf的说法，该初创公司的模型效率如此之高，迄今为止的花费“远远低于”1亿美元。Oasis 3生成物理准确的多摄像头环境—一个前置和两个侧置摄像头—用于训练和测试系统。而且，Decart并不提供有限的演示和研究预览，而是允许开发者无限生成场景。与我尝试过的其他模型相比，如谷歌的Genie 3或World Labs的Marble，Oasis 3提供了我见过的最佳真实感环境，只需一个文本提示。而且，您可以与之互动数小时，这表明Decart的竞争对手可能缺乏的效率水平。但通过让您生成如此长时间的世界，该模型也显著退化。在我的测试中，我发现系统可以持续建立一个强大的初始场景与提示相匹配，但随着我在世界中移动，主题的一致性迅速退化。我提示它生成一个早上的纽约街道，它做到了，美丽。但当我继续驾驶时，环境看起来不再像纽约，而更像是任何城市的标准版本。当我试图转身回到最初的交叉口时，它已经消失，被完全新环境替代。此外，控制反应并不灵敏，我常常失去对汽车移动方向的控制（这是我测试过的其他世界模型也存在的缺陷）。这种体验更像是一个不连贯的模拟，更像是一种梦境般的、支离破碎的意识流，迅速变得无意义。另一个问题，我在其他世界模型中也见过，就是汽车会直接穿过其他汽车，这意味着模型在环境中并没有正确模拟物理。Leitersdorf称这是一个“我们正在解决的重大研究问题”，并归因于“关于良好驾驶的数据比事故要多得多。”使这种物理一致性变得困难的部分是该世界模型的基本工作原理。Oasis 3是自回归的，这意味着它一次生成一帧，并回顾其先前生成的内容以决定接下来生成什么。这是许多世界模型的关键架构特性，且也是计算密集型的。