1. 题目、时间、机构、3个关键词

  • 题目:E₀: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion
  • 时间:2025年11月
  • 机构:SYSU, X-Era AI Lab, GDUT
  • 关键词:VLA Models, Discrete Diffusion, Robotic Manipulation

2. 通俗总结

本文提出了一个名为E₀的连续化离散扩散框架,用于改进视觉-语言-动作(VLA)模型。该框架通过将机器人动作量化为离散令牌,结合迭代去噪的扩散机制,让VLA模型既能兼容预训练视觉-语言骨干网络的符号结构,又能匹配真实机器人控制的量化特性,最终实现机器人在不同任务、场景和摄像头视角下的更强泛化能力,以及更精细、稳定的操作动作。

3. 核心创新点相较于前人的优势

  1. 突破离散模型局限:相比传统自回归(AR)和掩码式离散扩散模型,支持更大规模、更精细的动作词汇表,避免掩码导致的分布不匹配问题,实现更精准的细粒度动作控制;
  2. 解决连续模型缺陷:相比连续扩散模型,与预训练VLM/VLA骨干的符号结构自然对齐,强化语义关联,且贴合机器人硬件的量化特性,通过贝叶斯最优去噪器提升泛化能力;
  3. 高效鲁棒性增强:提出球面视角扰动增强方法,无需额外数据即可提升模型对摄像头视角变化的鲁棒性,解决视觉运动政策中常见的视角过拟合问题。

4. 要解决的问题

  1. 现有VLA模型泛化能力不足:难以适应多样化任务指令、环境配置和摄像头视角变化;
  2. 动作生成质量差:现有模型常产生粗糙、不稳定的动作,无法满足精细操作需求;
  3. 现有建模范式缺陷:离散模型受限于动作词汇量,连续模型存在语义不匹配和物理执行不一致问题,掩码式离散扩散存在分布不匹配和前向-反向一致性破坏。

5. 解决方法/算法通俗解释及整体流程

通俗解释

把机器人的连续动作(如平移、旋转、夹爪控制)拆分成大量离散的“动作令牌”(类似把连续的颜色分成多个具体色号),然后给这些令牌加高斯噪声,再训练模型学会逐步“去噪”还原出精准动作。同时,通过模拟摄像头在球面上的视角变化来增强数据,让模型适应不同拍摄角度。

整体流程
  1. 训练阶段:
    • 动作离散化:将连续动作按分位数量化为N个(最高2048个)离散令牌,转化为独热向量;
    • 加噪处理:对独热向量添加高斯噪声(加噪前用平滑因子稳定训练);
    • 模型训练:基于预训练VLM骨干(PaliGemma)和动作专家网络,以交叉熵损失为目标,学习从含噪动作令牌和多模态观测(图像、语言指令、机器人状态)中还原真实动作;
    • 视角增强:对输入图像进行球面旋转扰动,同时嵌入相对视角信息,提升跨视角一致性。
  2. 推理阶段:
    • 初始化:从随机含噪动作序列开始,缓存多模态观测的键值对(避免重复计算);
    • 迭代去噪:模型逐步对含噪动作令牌去噪,输出离散令牌分布,解码为独热向量后重新加噪进入下一轮;
    • 动作生成:经过N轮迭代后,将最终离散令牌逆量化为连续动作,形成可执行的动作序列。

6. 基于的前人方法

  1. 自回归(AR)VLA模型:如RT1、RT-2、OpenVLA,借鉴其离散动作令牌建模和预训练VLM/VLA骨干兼容特性;
  2. 扩散模型相关:包括连续扩散政策(如Diffusion Policy、RDT)的迭代去噪机制,以及掩码式离散扩散模型的离散建模思路;
  3. 视觉-语言模型(VLM):基于PaliGemma、Gemma等预训练VLM骨干,利用其多模态语义理解能力;
  4. 动作量化方法:借鉴分位数量化策略,用于处理动作离散化和异常值抑制。

7. 实验设置、数据、评估方式

实验设置
  • 硬件:训练用单张NVIDIA RTX RPO6000 GPU,推理用NVIDIA RTX 3090 GPU;
  • 超参数:训练步数30000步,批量大小32,学习率采用余弦衰减(峰值5e-5),动作量化 bins=2048,动作 horizon=50,梯度裁剪 norm=1.0;
  • 模型架构:VLM骨干(width=2048,depth=18),动作专家(width=1024,depth=18)。
实验数据
  1. 仿真数据集:
    • LIBERO:含4类任务(空间、物体、目标、长时域),5个核心操作任务(插销插入、捡 cube、堆 cube 等);
    • VLABench:语言驱动任务(选玩具、水果、画作、扑克、麻将),需语义理解和常识推理;
    • ManiSkill:精细操作任务(推、捡、堆、插入、插拔)。
  2. 真实世界数据:Franka Research 3机械臂的8类任务(短时域:捡块、按按钮等;长时域:连续捡块、抽屉操作+放置等),短时域任务50条轨迹/任务,长时域80条轨迹/任务。
评估方式
  • 核心指标:任务成功率(SR,%),长时域任务和复杂操作任务的过程分数(PS);
  • 对比方式:与π₀、π₀.5、OpenVLA、RDT等基线模型在相同数据和硬件条件下对比;
  • 消融实验:验证动作量化精度、动作时域长度、视角增强、独热平滑因子等关键参数的影响;
  • 鲁棒性测试:通过动态扰动摄像头位置和姿态,评估模型跨视角泛化能力。

8. 客观评价本文的价值

  1. 理论价值:提出连续化离散扩散框架,解决了离散与连续动作建模的核心矛盾,为VLA模型提供了兼顾语义对齐、量化适配和细粒度控制的新范式;
  2. 实践价值:在3个主流仿真基准和真实机械臂实验中达到SOTA,平均超越基线10.7%,可直接应用于机器人精细操作场景(如插销插入、卡牌抓取);
  3. 方法复用性:球面视角扰动增强为视觉-运动政策提供了通用鲁棒性提升方案,无需额外数据即可迁移;
  4. 局限:在双臂协同、长时域精密协调任务中表现仍有提升空间,对机械结构依赖较强的任务(如开关笔记本)适配不足。

9. 相关性最高的3个文献

  1. Black K, et al. π₀: A vision-language-action flow model for general robot control. arXiv preprint arXiv:2410.24164, 2024.
  2. Kim MJ, et al. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246, 2024.
  3. Liu S, et al. Rdt-1b: a diffusion foundation model for bimanual manipulation. arXiv preprint arXiv:2410.07864, 2024.
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐