在机电一体化和机器人 AI 基础模型的进步的推动下,通用型机器人技术已经问世。但关键的瓶颈依然存在:机器人需要大量的训练数据来训练装配和检查等技能,而且手动演示不可扩展。NVIDIA Isaac GR00T-Dreams 蓝图基于 NVIDIA Cosmos 构建,只需一个图像和语言提示即可生成大量合成轨迹数据,从而应对这一挑战。
借助 Cosmos 世界基础模型 (WFMs) 和生成式 AI,开发者可以快速为 NVIDIA Isaac GR00T N1.5 等模型创建训练数据。
本文将介绍 Isaac GR00T-Dreams 蓝图,详细介绍其高级功能及其在开发 Isaac GR00T N1.5 基础模型中发挥的作用。
NVIDIA Isaac GR00T-Dreams 蓝图概述
Isaac GR00T-Dreams 蓝图是一个用于生成大量合成轨迹数据的参考工作流。这些数据用于教人形机器人在新环境中执行新动作。
该蓝图使机器人能够泛化各种行为,并使用最少的人类演示数据来适应新环境。因此,一个小型人类演示团队可以创建与数千人生成相同数量的训练数据。
GR00T-Dreams 蓝图是对 Isaac GR00T-Mimic 蓝图的补充。通过使用 NVIDIA Omniverse 和 Cosmos Transfer-1 WFM 扩展已知任务的现有演示数据,GR00T-Mimic 可帮助机器人培养深度熟练程度,并成为这些特定技能的专家。GR00T-Dreams 采用 Cosmos Predict-2 和 Cosmos Reason 为新任务和环境生成全新数据,致力于使机器人成为具有广泛适应性的通用机器人。
GR00T-Dreams 蓝图管道
该蓝图提供强大的“real-to-real”数据工作流,用于训练通用机器人,并使用真实机器人数据创建合成轨迹,然后用于训练物理机器人。这种方法显著减少了对大规模人类演示的需求。该过程包括以下概述的步骤。

第 1 步:通过人类演示进行后训练
首先,开发者为在单一环境中执行单项任务 (例如拾放) 的人形机器人收集一组有限的人工远程操作轨迹。然后,使用这些真实数据对 Cosmos Predict-2 WFM 进行后训练。此后的训练步骤可让模型学习该机器人特有的特定移动能力和功能约束。
第 2 步:生成“梦境”
接下来,开发者为经过微调的 Cosmos 模型提供初始图像和基于文本的新指令,以便生成的机器人执行操作。这促使生成式模型创建大量多样化和新颖的任务场景或未来世界状态 (也称为梦境) ,例如打开、关闭、排列物体、清理和排序。这些场景以 2D 视频的形式创建。
第 3 步:推理并筛选
在生成大量梦境后,Cosmos Reason 模型可用于评估每个梦境的质量和成功情况。它可以过滤掉描绘失败或有缺陷的任务尝试的“坏”梦,确保只为下一阶段选择最高质量和最相关的场景。
第 4 步:提取神经轨迹
选中的梦最初只是 2D 视频中的像素,然后使用 Inverse Dynamics Model (IDM) (一种用于动作标记的生成式 AI 模型) 进行处理,以生成 3D 动作轨迹。该模型的工作原理是将 2D 视频中的两个图像帧 (“之前”和“之后”) 作为输入,并预测它们之间发生的动作片段。
这一关键步骤将梦以求的视频中的视觉信息转换为可操作的数据,供机器人学习。这些 2D 视频现已添加 3D 动作数据,被称为 neural trajectories。
第 5 步:训练视觉运动策略
最后,这些神经轨迹可用作大规模合成数据集,用于训练视觉运动策略,方法是与真实数据一起进行协同训练以提高性能,或者仅通过对这些数据进行训练来实现对新行为和不可见环境的泛化。
用于机器学习的高级功能
GR00T-Dreams 蓝图为机器人学习提供了先进的功能,包括新行为、新环境等。
新行为:机器人通过语言指令学习新动作,即使仅使用来自单个任务 (例如 pick-and-place) 的训练数据也是如此。

新环境:即使世界模型仅在一个实验室环境中进行训练,机器人也可以泛化到完全不可见的环境。

多种机器人类型:适用于从人形机器人到机械手 (如 Franka 和 SO-100) 的各种机器人具身,并支持多个摄像头视图。

针对复杂任务的增强学习:针对具有挑战性、接触性丰富的任务增强训练数据,例如操作可变形物体 (folding) 或使用工具 (hammering) ,在初始真实帧中发挥逼真工作流程的作用。

使用 GR00T-Dreams 对 GR00T N1.5 进行后训练
视觉语言动作 (VLA) 模型可以使用 GR00T-Dreams 进行后训练,以在不可见的环境中实现新的行为和操作。
NVIDIA Research 使用 GR00T-Dreams 蓝图生成合成训练数据,在短短 36 小时内开发出 GR00T N1.5。如果使用人工收集人类数据,这一过程需要近三个月的时间。
GR00T N1.5 是 GR00T N1 的首次更新,GR00T N1 是全球首个用于通用人形机器人推理和技能的开放基础模型。这种跨具身模型接受包括语言和图像在内的多模态输入,以在不同环境中执行操作任务。
GR00T N1.5 的新增功能:
- 提高了理解语言指令的准确性
- Isaac GR00T-Dreams 蓝图增强了对新对象和环境的泛化。
- 改进了视觉语言基础,使用 Eagle 2.5 实现更好的空间理解和开放世界视觉基础
- 提高物料搬运和制造任务的成功率
开放的 NVIDIA 物理 AI 数据集
NVIDIA 扩展了开放式 NVIDIA Physical AI 数据集集合,这是 Hugging Face 上下载量最多的机器人数据集。该数据集最初于 2025 年 3 月推出,现在包含数千条新的机器人轨迹,其中包含来自 Unitree G1 机器人的首批真实训练数据和 24,000 条模拟远程操作轨迹。
该集合还包含用于各种操作任务的合成模拟数据,有助于开发 GR00T N1.5。
GR00T N 模型在生态系统中的应用
GR00T N 模型的早期采用者包括 AeiRobot、Foxlink、Lightwheel 和 NEURA Robotics。
AeiRobot 使用它们使其工业机器人能够理解复杂拾放任务的自然语言。Foxlink 正在利用这些模型来提高其工业机器人手臂的灵活性和效率。Lightwheel 正在利用它们来验证合成数据,以便在工厂中更快地部署人形机器人。NEURA Robotics 正在评估这些模型,以加速其家庭自动化系统的开发。
开始加速机器学习
NVIDIA Isaac GR00T-Dreams 蓝图是用于生成大量合成轨迹数据的参考工作流。这些数据用于教人形机器人在新环境中执行新动作。该蓝图使机器人能够泛化各种行为,并使用最少的人类演示数据来适应新环境。
要开始使用 GR00T-Dreams:
- 查看开源端到端pipeline。
- 探索经过后训练的 Cosmos Predict-2 模型,以生成梦境。
- 有关 DreamGen (为 GR00T-Dreams 提供支持的研究) 的更多信息,请参阅《DREAMGEN:Unlocking Generalization in Robot Learning through Neural Trajectories》论文。
要开始使用 GR00T N1.5,请执行以下操作:
订阅我们的时事通讯并在 LinkedIn、Instagram、X 和 Facebook 上关注 NVIDIA Robotics,随时了解最新动态。探索 NVIDIA 文档和 YouTube 频道,并加入 NVIDIA Developer Robotics 论坛。要开启您的机器人开发之旅,请立即注册我们的免费 NVIDIA Robotics Fundamentals 课程。