论文题目

Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos

摘要

 This paper presents a novel approach for pretraining robotic manipulation Vision-Language-Action (VLA) models using a large corpus of unscripted real-life video recordings of human hand activities.
  Treating human hand as dexterous robot end-effector, we show that “in-the-wild” egocentric human videos without any annotations can be transformed into data formats fully aligned with existing robotic V-L-A training data in terms of task granularity and labels.
  This is achieved by the development of a fully-automated holistic human activity analysis approach for arbitrary human hand videos. This approach can generate atomic-level hand activity segments and their language descriptions, each accompanied with framewise 3D hand motion and camera motion.
  We process a large volume of egocentric videos and create a hand-VLA training dataset containing 1M episodes and 26M frames. This training data covers a wide range of objects and concepts, dexterous manipulation tasks, and environment variations in real life, vastly exceeding the coverage of existing robot data.
  We design a dexterous hand VLA model architecture and pretrain the model on this dataset. The model exhibits strong zero-shot capabilities on completely unseen real-world observations.
  Additionally, fine-tuning it on a small amount of real robot action data significantly improves task success rates and generalization to novel objects in real robotic experiments.
  We also demonstrate the appealing scaling behavior of the model’s task performance with respect to pretraining data scale. We believe this work lays a solid foundation for scalable VLA pretraining, advancing robots toward truly generalizable embodied intelligence.

结论

 This paper introduces a novel approach for pretraining robotic manipulation VLA models using unstructured real-life human activity videos.
  We develop a fully-automatic pipeline to convert in-the-wild egocentric human videos into atomic-level VLA data aligned with existing robotic demonstrations.
  We also design a dexterous hand VLA model with tailored training strategies to effectively leverage human data for pre-training.
  Experiments show that our pretrained model exhibits strong zero-shot performance in unseen real-world environments, high task success after being finetuned on limited robot data, and favorable data scaling behavior, demonstrating a highly promising and scalable approach toward learning truly generalizable embodied robots.

论文核心信息

项目 内容
标题 Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos
作者 Qixiu Li, Yu Deng, Yaobo Liang, Lin Luo 等(清华 & 微软亚研)
发表 arXiv:2510.21571v1, 2025年10月
项目主页 https://ittps.io/VITRA/

研究背景与动机

核心问题

现有机器人VLA模型预训练面临数据瓶颈

  • 机器人动作数据(如Open X-Embodiment)采集成本极高,规模受限
  • 缺乏大规模**灵巧手(dexterous hand)**操作数据
  • 数据多样性不足,难以覆盖真实世界的复杂场景

关键洞察

互联网上存在海量非结构化、无脚本的真实人类活动视频(egocentric视频),这些视频包含丰富的日常操作演示,但存在以下挑战:

  1. 无分割标注:视频未按原子动作切分
  2. 无语言指令:缺乏任务描述
  3. 无3D动作标签:缺少精确的手部运动轨迹

核心方法:三阶段自动处理流程

论文提出了一套全自动、无需人工标注的流水线,将原始人类视频转换为与机器人VLA数据格式对齐的训练数据:

┌─────────────────┐    ┌──────────────────┐    ┌─────────────────┐
│  3D Motion      │ → │  Atomic Action   │ → │  Instruction    │
│  Labeling       │    │  Segmentation    │    │  Labeling       │
│  (3D运动标注)    │    │  (原子动作分割)   │    │  (指令生成)      │
└─────────────────┘    └──────────────────┘    └─────────────────┘

阶段一:3D运动标注(3D Motion Labeling)

组件 技术方案 输出
相机内参估计 DroidCalib(动态相机)/ MoGe-2 + DeepCalib(静态相机) 焦距、畸变参数
手部重建 HaWoR 每帧相机空间3D手部姿态(MANO参数)
相机位姿跟踪 MegaSAM(改进版,使用MoGe-2替代深度估计) 度量尺度的相机轨迹
坐标变换 世界坐标系融合 世界空间3D手部序列

关键创新:通过视觉SLAM + 单目深度估计,实现了无需标定、无需RGB-D相机的度量尺度3D重建。

阶段二:原子动作分割(Atomic Action Segmentation)

核心观察:人类手部动作存在自然的"节拍"——动作转换时手腕速度出现极小值。

算法

  1. 计算世界空间中手腕3D轨迹的速度
  2. 高斯平滑去噪
  3. 检测局部速度极小值(0.5秒窗口内最小)
  4. 左右手独立分割

优势:无需额外模型推理,无需预标注文本,高度可扩展

阶段三:指令标注(Instruction Labeling)

利用GPT-4V进行视觉-语言标注:

  • 从片段中均匀采样8帧
  • 将3D手部轨迹投影到帧上(蓝→绿→红表示时序)
  • 提示GPT-4V描述指定手的动作(祈使句格式)
  • 过滤无意义动作为"N/A"

数据集构建成果

统计指标 数值
总片段数(Episodes) 1M
总帧数 26M
数据来源 Ego4D (77%), Epic-Kitchen (12%), EgoExo4D (6%), SSV2 (5%)
覆盖场景 烹饪、清洁、建筑、维修、手工艺、绘画等

数据多样性优势(对比现有数据集)

视觉多样性(图4):

  • 与OpenImages数据集的相似度显著高于OXE、DROID等机器人数据集
  • 数据增长时多样性提升更快,分布更均匀

语言指令多样性(图5):

  • 名词、动词、形容词的多样性均优于EgoDex、OXE、DROID
  • h-index和i100-index指标更高

VLA模型架构

整体结构

输入:图像 + 语言指令 + 相机FoV
    ↓
┌─────────────────┐
│   SigLIP编码器   │  ← 冻结
│  + Gemma-2 LLM  │
│  + 可学习Cognition Token │
└─────────────────┘
    ↓ Cognition Feature (fc)
    ↓
┌─────────────────┐
│  Diffusion Action Expert (DiT-Base, 136M参数) │
│  - 输入:fc + 手部状态 + 噪声动作块 + 动作掩码 │
│  - 因果注意力(Causal Attention)            │
│  - AdaLN条件注入                             │
└─────────────────┘
    ↓
输出:未来N步的灵巧手动作(Δt, Δr, θh)

动作空间定义

a t = [ Δ t l , Δ r l , θ h l , Δ t r , Δ r r , θ h r ] ∈ R 102 \mathbf{a}_t = [\Delta\mathbf{t}^l, \Delta\mathbf{r}^l, \boldsymbol{\theta}_h^l, \Delta\mathbf{t}^r, \Delta\mathbf{r}^r, \boldsymbol{\theta}_h^r] \in \mathbb{R}^{102} at=[Δtl,Δrl,θhl,Δtr,Δrr,θhr]R102

  • 左右手各:3D平移 + 3D旋转(欧拉角)+ 15关节×3欧拉角

关键设计

设计 说明 作用
因果动作去噪 动作token仅关注之前的位置 处理变长动作片段,避免零填充干扰
统一单/双手预测 动作掩码区分有效动作维度 灵活处理单手/双手/重叠动作数据
轨迹感知增强 随机裁剪、透视变换、颜色抖动 提升视觉泛化性

实验结果

1. 人手动作预测(零样本泛化)

方法 抓取任务 Avg/Med距离(cm)↓ 一般动作 用户评分↑
初始位置 20.0/20.0 -
Being-H0 (并发工作) 19.1/18.4 0.15
EgoDex(实验室数据) 17.6/18.3 0.96
人工标注原始数据 14.1/14.1 1.43
Ours 8.8/6.2 1.91

关键发现

  • 真实世界视频预训练显著优于实验室采集数据
  • 自动分割+轨迹标注优于原始人工标注
  • 数据规模扩大时性能持续提升(图7)

2. 真实机器人灵巧手操作

实验设置

  • 机器人:Realman RM75-B + 12-DoF XHand灵巧手
  • 微调数据:1.2K遥操作轨迹(4个任务)
  • 对比方法:VPP、π₀、无预训练、OXE预训练、隐式动作预训练
方法 已见物体成功率 未见物体/背景 未见类别
VPP 24.8% 5.2% -
π₀ 46.9% 16.1% -
无VLA预训练 32.1% 10.9% -
OXE预训练 41.3% 7.8% -
隐式动作预训练 46.0% 0.0% -
Ours 71.0% 64.6% 70.8%

关键结论

  • 未见场景泛化:在未见物体、背景、类别上均保持高成功率
  • 数据效率:仅需1.2K机器人轨迹即可实现强性能
  • 显式3D动作优于隐式动作:隐式动作在分布外完全失效

3. 数据缩放行为(图10)

预训练数据规模与机器人任务成功率呈正相关

  • 从10%到100%数据,已见任务成功率从52%提升至80%
  • 未见任务成功率从37%提升至73%
  • 人手预测精度与机器人性能强相关(R²高)

核心贡献总结

维度 贡献
数据层面 首次实现从无脚本真实视频自动构建大规模VLA预训练数据(1M片段)
方法层面 提出基于3D手腕速度极小值的原子动作分割算法;因果动作去噪机制
模型层面 支持单/双手统一预测的灵巧手VLA架构
实验层面 证明真实世界视频预训练在零样本泛化和数据效率上的显著优势

局限与未来工作

  1. 当前限制

    • 3D重建存在噪声,影响部分数据质量
    • 主要针对短程原子动作,未涵盖长程规划
    • 机器人实验以单手任务为主
  2. 未来方向

    • 扩展至HowTo100M等更大规模视频源
    • 引入多视角输入和触觉反馈
    • 构建层级化任务结构支持长程推理
    • 探索双手协作任务

与相关工作的关键区别

相关工作 区别
EgoDex [37], Being-H0 [55] 使用脚本化实验室采集视频,环境多样性有限
GR00T N1 [8], LAPA [101] 使用隐式/潜在动作,非显式3D监督
OXE [63], DROID [44] 夹爪机器人数据,非灵巧手,多样性不足
H-RDT [7], EgoVLA [100] 并发工作,但主要使用受控环境视频

本工作的核心差异化在于:利用完全无约束的真实世界视频,通过全自动流水线实现可扩展的VLA预训练

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐