Nvidia Cosmos 3
物理人工智能系统必须理解真实世界,才能在其中行动。机器人、自动驾驶车辆和智能空间需要理解它们世界中的发生情况,预测接下来可能发生的事情,并为特定环境、体现和任务生成行动。NVIDIA Cosmos 3 是一个物理人工智能的前沿基础模型,它将物理推理、世界生成和行动生成结合在一个开放模型中。NVIDIA 正在开源 Cosmos 3 模型、训练脚本、部署工具和数据集,以使物理人工智能的发展更加开放和可再现。本博客文章涵盖了 Cosmos 3 的基本原理,强调技术报告中的关键概念,指导技术工作流程,并展示团队如何启动机器人操控系统、自动驾驶车辆和仓库监控解决方案。 图1. Cosmos 3 为自动驾驶领域生成的视频剪辑 图2. 使用 Cosmos 3 生成的仓库安全数据视频。 此次发布的关键亮点包括:NVIDIA Cosmos 3 Nano 和 NVIDIA Cosmos 3 Super 模型检查点在 Hugging Face 和 GitHub 上的代码。 适用于物理人工智能应用(如机器人和自动驾驶)的开放数据集。 将 Cosmos 3 适应到您的领域的开放后训练脚本。 Cosmos NIM 微服务,可轻松优化在 NVIDIA GPU 上的部署。 Cosmos 3 的新功能 以往的 Cosmos 版本将世界生成、物理理解和受控场景生成分离为不同的模型和工作流程。此次发布通过基于两座塔的混合变换器(MoT)架构统一了这些能力。 推理塔:一个视觉语言模型(VLM),用于解释多模态观察,例如图像、视频和文本。该塔使用自回归架构来解释输入并理解运动、物体交互和其他物理上下文。这一部分作为“大脑”在任何生成发生之前对世界进行推理。 生成塔:生成未来的观察和行动序列。该塔使用基于扩散的过程生成对物理感知的视频和行动输出,这些输出受推理塔理解的条件限制。该推理塔可以独立调用,但生成塔总是激活两个塔进行引导生成。 图3. Cosmos 3 架构 这一架构使单一模型能够执行推理和生成任务,通过消除多个模型和推理管道之间的编排来简化开发。 选择合适的模型大小 当前可用的两个 Cosmos 3 模型为:Cosmos 3 Nano 是具有 16B 参数的紧凑型版本,优化用于高效推理。它旨在在工作站级计算机上运行,例如 NVIDIA RTX PRO 6000 GPU,以实现实时机器人推理和物理人工智能应用。Cosmos 3 Super 是一个具有 64B 参数的模型,旨在提供最大质量和能力。它提供了最高的基准分数,目标是在 NVIDIA Hopper 和 NVIDIA Blackwell GPU 上进行数据中心部署,使其适合于大规模合成数据生成和高级物理推理工作负载。 支持的模态 Cosmos 3 通过其统一架构支持以下输入和输出模态: 行动条件的世界模型 输出应用 稿件 文本 图像 物理可信的图像生成 文本 | 视频 视频 为罕见边缘案例视频数据生成的世界模型 文本 | 图像 视频 预测的世界模型 文本 | 图像 | 视频 文本 VLM 用于推理 行动 | 视频 | 文本 视频 行动条件的世界模型 视频 | 文本 视频 | 行动 世界行动模型、视频行动模型、视觉语言行动模型、机器人学习的策略模型 表1. Cosmos 3 支持的不同应用的输入和输出模态 随着 Cosmos 3 发布,NVIDIA 正在 Hugging Face 开源六个合成数据生成(SDG)数据集。这些数据集涵盖了机器人、物理仿真、空间推理、人类运动、驾驶和仓库环境, can be used for post-training Cosmos 3 and other models: 物理人工智能世界模型合成数据集包括:具体现身机器人场景 物理交互场景 空间推理 数字人类场景 自动驾驶场景 仓库操作场景 图4. 来自具体现身机器人场景数据集的操控示例 图5. 来自物理交互场景数据集的示例 图6. 来自空间推理数据集的示例 图7. 来自数字人类场景数据集的示例 图8. 来自自动驾驶场景的数据集的示例 图9. 来自仓库操作场景的数据集的示例 NVIDIA Cosmos 人类评估基准 NVIDIA Cosmos 人类评估(HUE)框架评估 Cosmos 3 生成器在代表性领域任务中的质量。随着 SOTA 视频生成模型饱和现有自动化排行榜,不同版本之间的分数差异将会逐渐减小。
本站免费、广告极少。如果觉得有帮助,可以请我们喝杯咖啡 —— 任何金额都对持续运营有实际帮助。
☕请我喝杯咖啡