搜维尔科技:英伟达EgoScale: 以MANUS数据手套扩展机器人灵巧操作能力
拧瓶盖、注射器注射、折叠衣物、夹取水果——这些人类习以为常的精细动作训练机器人完成的成本却极高。人类每天产生的海量灵巧操作数据又因具身差异难以直接迁移至机器人系统。NVIDIA发布的EgoScale框架正是针对这一数据效率瓶颈提出的系统性解法。方案概述EgoScale 以大规模人类第一视角egocentric视频作为主要监督信号结合 MANUS 数据手套提供的高精度动作对齐构建了一套三阶段训练流程。NVIDIA提出EgoScale三阶段训练流程以扩展机器人灵巧操作能力第一阶段人类数据预训练研究团队在20,854小时经过动作标注的人类第一视角视频上对一个视觉-语言-动作VLA模型进行预训练。人类手部动作通过21个关键点进行提取并重定向映射至 22 自由度的Sharpa机械手关节空间手腕运动则以相对三维平移与旋转的形式表示。研究发现随着人类数据量的增加模型验证损失呈现出规律性下降且与真实机器人任务表现高度相关遵循对数线性缩放定律。这一结果表明大规模人类视频是一种可扩展、可靠的灵巧操作学习监督来源。从带有动作标注的人类第一视角视频中通过21个关键点提取手部动作信息第二阶段人机动作对齐第一阶段从无约束的人类数据中学习了通用操作先验但该先验尚未与机器人的感知和控制设置相匹配。第二阶段的目标正是弥合这一具身差距embodiment gap。为此研究团队采集了一套小规模、精心对齐的数据集操作者与遥操作机器人在相同摄像头设置下执行同一组共344项桌面操作任务。采集过程中操作者佩戴MANUS数据手套以高保真度捕捉手指动作同时使用 Vive 追踪器记录手腕运动。机器人遥操作阶段沿用完全相同的动捕设备确保人类与机器人的动作信号具有直接可比性。通过约50小时对齐人类数据与4小时机器人数据的配对训练模型完成了将人类操作知识锚定至机器人控制空间的关键步骤。人机对齐数据采集设置同步使用MANUS数据手套与第一视角摄像头捕捉与机器人感知配置一致的手部动作及视觉输入。第三阶段任务适配进入第三阶段时模型已具备来自第一阶段的通用操作先验以及来自第二阶段的具身对齐能力。本阶段在此基础上针对具体任务进行微调。标准设置使用约100条遥操作机器人示范进行任务适配。由于前序阶段打下了坚实基础这一相对少量的数据集已足以在复杂灵巧任务上达到较高性能。单次示范设置One-shot模型仅需1条机器人示范辅以对齐的人类示范即可实现有效泛化。这充分体现了前序训练阶段所赋予的强少样本学习能力。基于流匹配的VLA策略架构以预训练视觉语言模型VLM为骨干网络结合DiT动作专家模块采用手腕级动作表征与轻量具身适配器实现人类与机器人数据的统一建模。实验结果大规模人类预训练与MANUS手套辅助对齐的组合带来了显著的性能提升。在五项复杂的灵巧操作任务中完整的 Pretrain Midtrain 模型相比无预训练no pretraining基准模型平均成功率提升了54%。此外Pretrain Midtrain 模型在所有单项任务上的表现也明显优于从零开始训练training from scratch的模型。在one-shot设置 下只需 一次机器人示范模型在 衬衫折叠任务shirt folding 上即可达到最高 88%的成功率展现出强大的少样本泛化能力few-shot generalization。此外所学操作先验具备跨具身迁移能力。基于高自由度人类与灵巧手数据预训练得到的策略可适配至搭载7自由度三指灵巧手的宇树G1机器人在新任务上仍取得超过30个百分点的绝对成功率提升。这一结果表明高自由度人类操作表征能够有效泛化至低自由度机械手平台。在星海图R1 Pro机器人搭载的22自由度Sharpa灵巧手上进行动作空间预训练得到的策略可迁移至搭载7自由度三指灵巧手的宇树G1机器人验证了其跨具身平台的泛化能力。影响与意义EgoScale为灵巧机器人学习建立了一套可扩展的训练范式以大规模人类视频构建通用操作先验以MANUS数据手套提供人类运动空间与机器人关节空间之间的精准对齐层最终仅需极少量机器人示范即可完成任务专化。这一范式的核心价值在于将数据瓶颈从机器人示范规模转移至人类视频规模——而后者几乎是无限可扩展的。随着预训练数据持续积累模型性能可依据已验证的对数线性缩放定律稳定提升为大规模部署通用灵巧操作系统提供了清晰且可预判的技术路径。关于搜维尔科技我们热衷于动作捕捉技术的研发与推广。我们热衷于推动技术发展使其处于技术前沿甚至更前沿。在这个频道上我们想分享我们基于动作捕捉技术的最新体验。搜维尔科技与Manus总部签署代理合作协议成为其在中国大陆地区的授权代理经销商。搜维尔科技现支持相关产品购买、咨询与售后支持等服务欢迎垂询。