1. 题目、时间(精确到月份)、机构(只写英文简称)、3个关键词(仅英文)

  • 题目:dVLA: DIFFUSION VISION-LANGUAGE-ACTION MODEL WITH MULTIMODAL CHAIN-OF-THOUGHT
  • 时间:2025年9月
  • 机构:Midea Group、PKU、SJTU
  • 关键词:dVLA、Diffusion Model、Multimodal Chain-of-Thought

2. 一段话通俗总结干了什么事

研究团队提出了名为dVLA的模型,它是一种基于扩散模型的视觉-语言-动作(VLA)系统。简单来说,就是让机器人能像人一样“看环境、懂指令、做动作”:通过统一的训练目标,把视觉感知(看图像)、语言推理(理解文字指令)和机器人控制(生成动作)整合到一起,还加入了“多模态思维链”——让机器人在行动前先生成子目标图像(比如“接下来要抓的杯子在哪”的画面)和文字推理(比如“先把杯子从托盘移到盒子”)。同时,为了解决实际使用时反应慢的问题,还加了两种加速方法,最终在仿真(LIBERO基准)和真实机器人(Franka机械臂)上都表现很好,比如仿真中平均成功率达96.4%,真实场景能完成复杂的分箱拾取任务。

3. 本文核心创新点比前人创新在哪里

相比前人的VLA模型,dVLA的核心创新主要有三点:

  1. 解决了“目标冲突”问题:前人将视觉-文本数据与机器人动作数据分开训练,容易出现梯度冲突(比如优化感知的梯度会干扰动作学习),而dVLA用单一扩散目标统一优化三者,避免了冲突,强化了跨模态推理能力;
  2. 强化了“多模态思维链”:前人虽有思维链设计,但多是单一文本或视觉形式,dVLA首次让机器人同时生成子目标图像(视觉思维)、文字推理(语言思维)和动作序列,且通过“随机掩盖token并重建”的方式,让三者高度一致,甚至能预测动作失败的画面(比如“杯子会卡在机械臂和盒子间”);
  3. 兼顾“性能与速度”:前人扩散模型类VLA推理速度慢,难以实际部署,dVLA加入前缀注意力掩码和KV缓存两种加速策略,在几乎不损失性能的前提下,将推理速度提升近2倍,满足真实机器人实时性需求。

4. 本文要解决什么问题

现有VLA模型存在三大关键问题,dVLA旨在针对性解决:

  1. 训练目标冲突:视觉-文本数据的训练目标(保留预训练知识、理解场景)与机器人动作数据的训练目标(学习精准控制)不同,导致梯度干扰,影响动作学习效果;
  2. 多模态融合困难:将图像生成(视觉)、语言推理(文本)与动作生成(控制)整合到同一模型时,因训练目标和架构差异,难以协调三者,无法充分利用跨模态知识,也难以捕捉“动作-图像”间的物理规律;
  3. 推理延迟过高:加入多模态思维链后,模型计算量增加,推理速度慢,无法满足真实机器人(如机械臂、自动驾驶)的实时控制需求。

5. 解决方法/算法的通俗解释,以及整体流程

解决方法通俗解释

  1. 统一“数据语言”:先把视觉(图像)、文本(指令)、动作(机械臂运动)这三种不同类型的数据,都转换成模型能理解的“离散token”(类似给每种数据编统一的“密码本”):用MAGViT-v2转图像、LLaDA tokenizer转文本、FAST转动作;
  2. 统一“训练任务”:用“扩散模型”的思路训练——训练时随机掩盖一部分token(比如掩盖子目标图像token或动作token),让模型根据未掩盖的token(如当前图像、指令)重建被掩盖的部分,通过这一单一任务,同时优化感知、推理和动作能力;
  3. 加入“多模态思考步骤”:训练时让模型在生成动作前,先输出“子目标图像”(比如“抓完杯子后杯子该在的位置”)和“文字推理”(比如“先定位绿色杯子,再移动机械臂”),强制模型“先想后做”;
  4. 加速推理:用“前缀注意力掩码”把输入分成“已知部分”(如当前图像、指令)和“待生成部分”(如子目标、动作),只在同部分内计算注意力,减少计算量;用“KV缓存”把推理中重复计算的中间结果存起来,不用每次重新算,提升速度。

整体流程

  1. 数据准备:收集仿真(LIBERO)和真实机器人(Franka)的图像、指令、动作数据,将其全部转换成离散token;
  2. 模型训练:基于MMaDA扩散模型框架,用“掩盖-重建”任务训练模型,同时加入多模态思维链生成要求;
  3. 推理优化:在模型推理时,启用前缀注意力掩码和KV缓存;
  4. 部署测试:将训练好的模型部署到仿真环境(LIBERO)和真实Franka机械臂,测试任务成功率和推理速度。

6. 基于了前人的哪些方法

dVLA主要基于4类前人方法构建:

  1. 扩散语言模型基础:基于MMaDA(Yang et al., 2025)——这是一种离散扩散模型,能统一处理多模态理解与生成,dVLA以此为基础框架,扩展其处理动作数据的能力;
  2. 动作token化方法:基于FAST(Pertsch et al., 2025)——该方法用离散余弦变换(DCT)和字节对编码(BPE)将连续动作转换成离散token,解决了动作与视觉/文本数据格式不兼容的问题;
  3. 视觉与文本token化方法:分别基于MAGViT-v2(Yu et al., 2023)和LLaDA tokenizer(Nie et al., 2025),前者用于将图像转换成离散语义token,后者用于处理文本指令;
  4. 推理加速方法:基于LaViDa(Li et al., 2025b)的前缀注意力掩码思路,以及dLLM-Cache(Liu et al., 2025b)的KV缓存技术,两者结合实现推理加速。

7. 实验设置、数据、评估方式是什么样的

实验设置

  1. 仿真环境:使用LIBERO基准(机器人操纵 lifelong 学习基准),包含4个任务套件(LIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-Long),每个套件10个任务;
  2. 真实环境:使用7自由度Franka机械臂,搭配2个外部ZED相机和1个Realsense 435i腕部相机,测试4类任务(分箱拾取、开箱、挂杯子、拾取放置);
  3. 基线模型:对比两类模型——连续动作政策(如Diffusion Policy、GR00T-N1、Octo)和离散动作政策(如OpenVLA、CoTVLA、Discrete Diffusion VLA),还设置“无多模态思维链的dVLA(vanilla dVLA)”作为消融对照。

实验数据

  1. 仿真数据:LIBERO基准中每个任务含50条人类遥控演示数据,将图像分辨率调整为256×256,过滤未完成任务的演示;
  2. 真实数据:收集1100条轨迹,其中分箱拾取600条、开箱100条、挂杯子200条、拾取放置200条;
  3. 多模态思维链数据:子目标图像从“动作块长度±10%”的未来时刻采样,文字推理用SEED-1.5VL生成视频分割标注(长任务如分箱拾取)。

评估方式

  1. 核心指标:任务成功率(SR,完成任务的轨迹数/总轨迹数)、推理速度(动作生成频率,单位Hz);
  2. 评估流程:仿真中每个任务测试50次,共500次;真实环境中每个任务测试10次,共40次;
  3. 消融实验:对比“有无多模态思维链”的成功率差异,以及“有无加速策略”的速度与成功率变化。

8. 客观评价本文的价值

理论价值

  1. 突破多模态统一训练瓶颈:首次用单一扩散目标解决VLA模型中视觉-文本-动作的训练梯度冲突问题,为跨模态协同学习提供了新范式;
  2. 强化多模态推理可解释性:通过“子目标图像+文字推理”的思维链设计,让机器人动作生成过程可可视化、可追溯,解决了传统VLA“黑箱决策”的问题,还能预测失败场景,提升安全性。

应用价值

  1. 推动实际部署:通过前缀注意力掩码和KV缓存实现近2倍推理加速,解决了扩散模型类VLA实时性不足的痛点,使模型能在真实机器人(如工业机械臂、服务机器人)上落地;
  2. 验证性能优越性:在LIBERO基准上达96.4%平均成功率,超越所有离散/连续动作基线;在真实Franka机械臂上完成复杂分箱拾取任务,证明了模型在实际场景的泛化能力,为工业自动化、家庭服务机器人等领域提供技术支撑。

局限性(客观补充)

目前实验主要集中在桌面级操纵任务,对动态环境(如移动机器人)或更复杂交互(如多机器人协作)的测试不足,未来需进一步扩展场景适应性。

9. 列出和本文相关性最高的3个文献

  1. Yang, Y., et al. (2025). MMaDA: Multimodal large diffusion language models. arXiv preprint arXiv:2505.15809.(dVLA的核心框架基础,提供离散扩散多模态统一建模思路)
  2. Pertsch, K., et al. (2025). FAST: Efficient action tokenization for vision-language-action models. arXiv preprint arXiv:2501.09747.(dVLA动作token化的关键方法来源,解决动作与视觉/文本数据兼容问题)
  3. Liang, Z., et al. (2025). Discrete diffusion VLA: Bringing discrete diffusion to action decoding in vision-language-action policies. arXiv preprint arXiv:2508.20072.(同领域离散扩散VLA baseline,dVLA在实验中直接对比的核心竞品,凸显dVLA的性能优势)
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐