Nvidia Cosmos 3

物理人工智能系统必须理解真实世界，才能在其中行动。机器人、自动驾驶车辆和智能空间需要理解它们世界中的发生情况，预测接下来可能发生的事情，并为特定环境、体现和任务生成行动。NVIDIA Cosmos 3 是一个物理人工智能的前沿基础模型，它将物理推理、世界生成和行动生成结合在一个开放模型中。NVIDIA 正在开源 Cosmos 3 模型、训练脚本、部署工具和数据集，以使物理人工智能的发展更加开放和可再现。本博客文章涵盖了 Cosmos 3 的基本原理，强调技术报告中的关键概念，指导技术工作流程，并展示团队如何启动机器人操控系统、自动驾驶车辆和仓库监控解决方案。图1. Cosmos 3 为自动驾驶领域生成的视频剪辑图2. 使用 Cosmos 3 生成的仓库安全数据视频。此次发布的关键亮点包括：NVIDIA Cosmos 3 Nano 和 NVIDIA Cosmos 3 Super 模型检查点在 Hugging Face 和 GitHub 上的代码。适用于物理人工智能应用（如机器人和自动驾驶）的开放数据集。将 Cosmos 3 适应到您的领域的开放后训练脚本。 Cosmos NIM 微服务，可轻松优化在 NVIDIA GPU 上的部署。 Cosmos 3 的新功能以往的 Cosmos 版本将世界生成、物理理解和受控场景生成分离为不同的模型和工作流程。此次发布通过基于两座塔的混合变换器（MoT）架构统一了这些能力。推理塔：一个视觉语言模型（VLM），用于解释多模态观察，例如图像、视频和文本。该塔使用自回归架构来解释输入并理解运动、物体交互和其他物理上下文。这一部分作为“大脑”在任何生成发生之前对世界进行推理。生成塔：生成未来的观察和行动序列。该塔使用基于扩散的过程生成对物理感知的视频和行动输出，这些输出受推理塔理解的条件限制。该推理塔可以独立调用，但生成塔总是激活两个塔进行引导生成。图3. Cosmos 3 架构这一架构使单一模型能够执行推理和生成任务，通过消除多个模型和推理管道之间的编排来简化开发。选择合适的模型大小当前可用的两个 Cosmos 3 模型为：Cosmos 3 Nano 是具有 16B 参数的紧凑型版本，优化用于高效推理。它旨在在工作站级计算机上运行，例如 NVIDIA RTX PRO 6000 GPU，以实现实时机器人推理和物理人工智能应用。Cosmos 3 Super 是一个具有 64B 参数的模型，旨在提供最大质量和能力。它提供了最高的基准分数，目标是在 NVIDIA Hopper 和 NVIDIA Blackwell GPU 上进行数据中心部署，使其适合于大规模合成数据生成和高级物理推理工作负载。支持的模态 Cosmos 3 通过其统一架构支持以下输入和输出模态：行动条件的世界模型输出应用稿件文本图像物理可信的图像生成文本 | 视频视频为罕见边缘案例视频数据生成的世界模型文本 | 图像视频预测的世界模型文本 | 图像 | 视频文本 VLM 用于推理行动 | 视频 | 文本视频行动条件的世界模型视频 | 文本视频 | 行动世界行动模型、视频行动模型、视觉语言行动模型、机器人学习的策略模型表1. Cosmos 3 支持的不同应用的输入和输出模态随着 Cosmos 3 发布，NVIDIA 正在 Hugging Face 开源六个合成数据生成（SDG）数据集。这些数据集涵盖了机器人、物理仿真、空间推理、人类运动、驾驶和仓库环境， can be used for post-training Cosmos 3 and other models: 物理人工智能世界模型合成数据集包括：具体现身机器人场景物理交互场景空间推理数字人类场景自动驾驶场景仓库操作场景图4. 来自具体现身机器人场景数据集的操控示例图5. 来自物理交互场景数据集的示例图6. 来自空间推理数据集的示例图7. 来自数字人类场景数据集的示例图8. 来自自动驾驶场景的数据集的示例图9. 来自仓库操作场景的数据集的示例 NVIDIA Cosmos 人类评估基准 NVIDIA Cosmos 人类评估（HUE）框架评估 Cosmos 3 生成器在代表性领域任务中的质量。随着 SOTA 视频生成模型饱和现有自动化排行榜，不同版本之间的分数差异将会逐渐减小。