告别海量数据依赖！EgoVLA新范式：机器人「偷师」人类第一视角，实现精准灵巧操作

最新推荐文章于 2025-08-06 20:19:32 发布

深蓝学院

最新推荐文章于 2025-08-06 20:19:32 发布

阅读量565

点赞数 14

CC 4.0 BY-SA版权

文章标签：机器人深度学习人工智能

本文链接：https://blog.csdn.net/soaring_casia/article/details/149533416

导读

想教机器人像人类一样灵活操作，过去的方法往往离不开昂贵的机器人硬件和海量实地示范。但这篇论文换了个角度：不如直接看“人”怎么做。研究团队提出了一种全新范式，用“第一视角”的人类视频（比如头戴相机拍的生活记录）训练视觉-语言-动作模型，让机器人从“看人怎么做”中学会操作技巧。它不仅学习了动作逻辑，还能通过计算将人类的手部动作“翻译”成机器人能理解的指令。最终，他们用很少的机器人演示微调模型，就训练出了效果强大的策略模型 EgoVLA，并在一个新设计的仿真平台上验证了它的表现——比传统方法更聪明、更像人。这项工作让我们看到了未来：不再依赖大量机器人数据，光靠“看人类做事”，机器人也能学得又快又好。

论文出处：arXiv2025

论文标题：EgoVLA: Learning Vision-Language-Action Modelsfrom Egocentric Human Videos

论文作者：Ruihan Yang, Qinxi Yu, Yecheng Wu, Rui Yan, Borui Li, An-Chieh Cheng,Xueyan Zou, Yunhao Fang, Hongxu Yin, Sifei Liu, Song Han,Yao Lu, Xiaolong Wang

近年来，随着大规模真实机器人数据的收集，机器人操作技术取得了显著进展。与依赖模拟的方法相比，直接使用真实机器人数据进行监督学习不仅可以规避“模拟到现实”（Sim2Real）之间的差异，还能更容易地提升任务复杂度。为了高效采集复杂的机器人操作数据，研究者们提出了多种遥操作工具，包括基于关节映射的装置、外骨骼设备和虚拟现实系统。然而，这些方式始终依赖机器人硬件和专家操作者，限制了数据规模的进一步扩展。

那么，是否可以直接从人类视频中学习操作技能呢？如果将人类视为一种特殊形态的机器人，那么我们就拥有了一个由80亿“机器人”组成的全球数据源，他们每天都在各种环境中进行操作活动。近期关于人手-物体交互预测的研究已展示出从人类行为中预测操作意图的潜力。如果能够充分利用这类人类数据，不仅能极大扩展训练数据的数量，更重要的是拓展任务和场景的多样性，尤其是在传统机器人或遥操作难以适应的环境中。

作者的核心观点是：人类与机器人的动作空间差异并没有想象中那么大，这种差异可通过几何变换进行近似。因此，作者提出用人类第一视角数据训练视觉-语言-动作模型（EgoVLA），即输入视觉观察帧、语言指令和当前手部姿态，预测人类手部在未来几步的动作（包括手腕和手部关节角度）。这些动作可通过逆运动学将手腕位置映射为机器人的末端执行器位置，并通过动作重定向将人类手部关节转换为机器人的手部动作。也就是说，EgoVLA 实质上已具备作为机器人策略的能力，只需再通过少量遥操作示范数据进行微调以修正输出误差。

为评估该方法，作者构建了一个基于 NVIDIA IsaacSim 的仿人双手操作基准环境（Ego Humanoid Manipulation Benchmark），涵盖12个任务，包括基础原子操作和组合多步操作的长程任务。每个任务采集了100个演示样本用于训练和评估。在实验中，EgoVLA 首先在自建的人类第一视角操作数据集上预训练，然后在该基准的机器人演示数据上微调。在所有评估任务中，EgoVLA 在短期和长期任务上均优于专业模型和通用模型的基线方法，在视觉观测变化和空间位置变化方面展现出更强的泛化能力。

图1｜作者提出的视觉-语言-动作模型能够从人类的第一视角视频中学习操作技能，并将这些技能迁移到一个双手仿人机器人上。图中上排展示了数据集中人类演示的多样化操作行为，下排则展示了机器人在学习这些技能后，基于第一视角完成的灵巧操作任务

数据集介绍

在语言模型和视觉-语言模型的训练中，数据结构本身对模型效果起着至关重要的作用。受到这一启发，作者也非常强调数据组织对操作策略学习的重要性。他们构建了一个大规模的人类第一视角操作数据集，专注于高技能密度的视频序列，并配有手腕、手部以及相机姿态的精确注释。整个数据集整合了四个来源，如图3所示，每个部分都有不同的比例：

● HOI4D 提供了4000个视频，记录了一只手进行的操作行为，比如拿起放下、旋转重定位、以及对关节物体的操控；

● HOT3D 包含833分钟与33个刚体对象的交互视频，标注了高精度的3D手部与相机位姿；

● HoloAssist 是一个规模更大的数据集，涵盖了166小时的人类双手操作任务，如更换电池、组装家具和设备设置。虽然它的手部姿态注释相对较“吵”，但双手互动内容极其丰富。为了避免它的数据占比过高，作者从中按1/10的比例进行了均匀采样；

● TACO 则包含2317段运动序列，覆盖151种工具-动作-物体三元组。

小编简单总结一下：这个数据集不只是“大”，而是精挑细选了覆盖多种手部操作技能的内容，力求在“多样性”与“数据质量”之间找到平衡。

数据处理方式

第一视角视频由于相机不断运动，学习过程会变得更加复杂。为此，作者利用世界坐标系下的相机姿态将未来的手腕位置投影到当前帧中，确保监督信号的一致性。RGB图像以3帧/秒采样，既兼顾计算效率，又保持了时间连续性。最终，整个数据集包含了约50万组图像-动作对，覆盖了丰富的操作任务。

图2｜基于高斯的人体模型

EgoVLA 模型设计

在模型结构方面，作者在一个已有的视觉语言模型（VLM）基础上构建了 EgoVLA，以借助其在视觉与语义理解方面的强大能力。具体来说，使用了体积较小但表现优秀的 NVILA-2B 作为主干网络，能够兼顾推理效率与微调灵活性。

如图2所示，EgoVLA 的输入包括：

● 当前及过去的6帧第一视角图像（每帧间隔0.2秒，覆盖1秒历史）；

● 一段简洁的语言指令，用来说明当前希望完成的技能；

● 人类的本体状态（即手腕的位置、姿态和手部关节状态）；

● 动作查询 token（用于指导输出序列）。

图像和语言信息首先经过视觉语言编码器处理，本体状态则通过多层感知器（MLP）编码，最终输入动作头（action head）进行动作预测。

输出包括：

● 手腕的三维平移和 rot6D 表示的旋转；

● 手部关节角度（使用 MANO 手部模型的前15个PCA主成分进行压缩表示）。

整个模型的损失函数包括三个部分：

● 手腕平移的L2损失；

● 手腕旋转的rot6D姿态损失；

● 手部关节角的L2损失。

三个部分的损失都有对应的权重系数（λ），具体设定详见补充材料。

动作头模块

动作头是一个包含6个编码器层的 Transformer（约3亿参数），每层的隐藏维度为1536。它接受人类或机器人的本体状态，以及动作查询 token 的潜在表示，输出未来1秒内（30帧）双手的动作序列。查询 token 采用词汇表中最后30个词的编码。

训练细节

模型首先在上述的人类数据集上预训练20个 epoch，随后在机器人示范数据上进行115个 epoch 的微调。第100轮后学习率下降。值得一提的是，在整个训练过程中，包括视觉编码器在内的整个模型都被参与微调。更多训练配置详见补充材料。

从人到机器：EgoVLA 的迁移策略

虽然人类和仿人机器人在结构上都使用双臂和双手进行操作，但在相机姿态、手部结构和外观上仍存在差异。因此，作者通过一个统一动作空间设计，结合少量机器人示范数据来实现模型的迁移，无需改动模型结构或重新初始化。

人-机动作对齐（Retargeting）

在对机器人数据进行微调前，作者需要将机器人动作对齐到人类的表示方式上：

● 对于手腕（末端执行器）的位置，通过三维变换统一机器人和人类的坐标系；

● 对于手部动作，则通过优化 MANO 模型的参数，使得预测出的手指尖位置尽可能接近机器人实际指尖的观测点，从而实现对机器人手部动作的逼真重建。

这种统一空间设计，使得人类预测输出可以直接用于机器人控制。

推理阶段的动作映射

在推理阶段，EgoVLA 输出的人类手腕和手部姿态，会被映射成机器人的控制指令。手腕姿态经过变换得到末端执行器位置，再通过逆运动学（IK）计算出机械臂的关节角度；手部动作部分，则由轻量级 MLP 预测手部关节命令。这个 MLP 是在机器人演示数据上训练的，输入是 MANO 模型生成的3D手指关键点。最终，这种映射方式可以将平均指尖误差控制在 5×10⁻⁵ 米，并保持任务的完成有效性。

小编总结一下：整套映射策略把“看得懂人类动作”和“控制得了机器人手”成功接起来了，而且用非常工程化的方法完成了精准转换，令人印象深刻。

图3｜一些动作演示的可视化

Ego Humanoid Manipulation Benchmark

在学习型机器人领域，另一个挑战是评估不一致、成本高且不易复现。为此，作者构建了一个基于 NVIDIA Isaac Lab 的仿真平台，命名为 Ego Humanoid Manipulation Benchmark，用于系统评估操控策略的表现。

该平台不强调 Sim2Real 的直接迁移，更像是一个受控的测试环境（类似 LIBERO 和 SIMPLER），具备复现性强、干扰可控的特点。它采用 Unitree H1 仿人机器人和双手 Inspire 手爪，涵盖了12个操作任务，包括：

● 短程动作：如推箱子、翻杯子、倒球、关抽屉、开抽屉、开笔记本电脑、堆罐子；

● 长程技能：如分类罐子、插入罐子、搬运罐子、复合插卸罐任务、将罐子堆入抽屉。

观测与控制空间

平台提供丰富的传感数据，包括：

● 机器人关节角、末端执行器姿态、接触力；

● 第一视角的 RGB-D 图像输入。

控制方式为：

● 手臂：末端执行器控制；

● 手爪：PD 控制器，12自由度（6个主动关节+6个联动关节）。

动作空间为36维，控制频率为30Hz。此外，每个任务还提供分步成功标志和子任务完成信息。

多样视觉背景 & 示范采集

仿真环境支持灵活的视觉背景控制，包括5种房间材质和5种桌面材质，组合生成25种视觉背景，用于测试模型的泛化能力。

示范数据由专家使用 Meta Quest 3 通过 OpenTelevision 采集，每个任务提供100个成功的演示，视频长度依任务复杂度在100～500帧之间。

人类操作建模能力验证

在将模型迁移到机器人平台之前，作者首先评估了 EgoVLA 模型对人类手部运动的建模能力。在定量指标上，EgoVLA 对人类手腕未来位置的预测平均误差约为 8厘米；当映射到图像平面后，其归一化误差为 0.13，与 HOI-forecast 领域的先进方法表现相当。

更值得注意的是，EgoVLA 不仅能学到动作轨迹，还能理解语言的语义变化。在图6的例子中，仅改变语言指令（比如将“把它放进抽屉”改成“把它从抽屉拿出来”），模型的手部预测轨迹也随之发生了方向性调整。这说明模型确实在根据语言指导进行语义层面的动作规划，而不仅仅是拟合手的轨迹。

小编总结一下，这部分实验验证了一个关键能力：模型真的能“听懂指令”，而不仅仅是“复现动作”。

仿实验采用两个核心指标来衡量模型在机器人平台上的表现：

● 成功率（Success Rate, SR）：任务完成与否；

● 进度率（Progress Rate, PSR）：任务中已完成子任务的比例，尤其适用于多阶段任务。

作者设计了两组评估环境：

● Seen 背景：训练时就出现过的视觉环境；

● Unseen 背景：训练中未见过的全新环境，带来更强的泛化挑战。

图表展示了模型在不同任务、不同背景下的表现。尤其在图表1与图表2中可见，EgoVLA 显著优于两类基线：

● EgoVLA-NoPretrain：没有使用人类视频预训练的版本；

● ACT 模型：为每个任务单独训练的专家模型。

在 Seen 环境中，EgoVLA 在精细操作任务上（如堆罐子、分类罐子、翻杯子等）表现尤为突出，说明其在人类视频中学到的“动作技能”具有较强泛化性。

图4｜在见或未见过的任务中的成功率结果表格（短期任务）

在 Unseen 环境中，EgoVLA 仍能维持不错的表现。尤其在短程任务中，性能下降幅度很小；而未预训练的 EgoVLA-NoPretrain 在新环境中的成功率则下降高达 23%。这再次验证了人类第一视角预训练在提升泛化性方面的重要作用人机器人操作任务评估。

图5｜在见或未见过的任务中的成功率结果表格（长期任务）

消融实验1：机器人数据规模影响

作者进一步测试了机器人演示数据的数量对模型性能的影响。在图表中，“EgoVLA (50%)”代表只用了一半机器人示范数据的版本。结果显示，长程任务的成功率从 45.93% 降至仅 7.41%。这说明虽然人类视频能帮助建立技能基础，但任务的高质量完成仍需一定量的机器人数据作为“适应”。

消融实验2：人类数据的组成影响

如下图中，作者测试了使用不同人类视频组合进行预训练对最终性能的影响。结果表明：预训练数据越多样、规模越大，模型效果越好。即便数据中存在缺陷，比如 HoloAssist 注释较“吵”、HOT3D 缺少语言标签，或 TACO 视觉多样性有限，EgoVLA 依然能从中受益。这说明该方法对数据质量的鲁棒性较强。

图6｜人类数据的组成影响消融实验结果

任务轨迹可视化

下图展示了多个长程任务中的手腕运动轨迹与视觉观测序列。可以看到，尽管每个任务只使用了100段示范，EgoVLA 依然成功执行了诸如“堆叠、插入、分类”等多阶段操作任务，并在空间感知和视觉变化方面展现出良好适应性。

小编总结：这些可视化轨迹不仅展示了模型的动作规划能力，也体现了其在多任务复杂控制上的稳健性和泛化能力。

图7｜机器人任务执行轨迹可视化

本文提出了 EgoVLA，一种基于人类第一视角视频训练的视觉-语言-动作模型，专注于灵巧操作任务。EgoVLA 首先在大规模人类操作数据集上进行预训练，再通过少量机器人演示进行微调。在模型设计上，作者引入了一个统一的动作空间，对齐了人类手部和机器人手部的表示方式，从而实现了人类到机器人之间的迁移能力。实验结果表明，通过人类视频预训练，EgoVLA 能够学习一种具备广泛适应性的通用操作策略，在任务多样性与机器人数据有限的情况下仍展现出优异表现，并具备良好的泛化能力。