【论文自动阅读】dVLA: DIFFUSION VISION-LANGUAGE-ACTION MODEL WITH MULTIMODAL CHAIN-OF-THOUGHT
研究团队提出了名为dVLA的模型,它是一种基于扩散模型的视觉-语言-动作(VLA)系统。简单来说,就是让机器人能像人一样“看环境、懂指令、做动作”:通过统一的训练目标,把视觉感知(看图像)、语言推理(理解文字指令)和机器人控制(生成动作)整合到一起,还加入了“多模态思维链”——让机器人在行动前先生成子目标图像(比如“接下来要抓的杯子在哪”的画面)和文字推理(比如“先把杯子从托盘移到盒子”)。
·
1. 题目、时间(精确到月份)、机构(只写英文简称)、3个关键词(仅英文)
- 题目:dVLA: DIFFUSION VISION-LANGUAGE-ACTION MODEL WITH MULTIMODAL CHAIN-OF-THOUGHT
- 时间:2025年9月
- 机构:Midea Group、PKU、SJTU
- 关键词:dVLA、Diffusion Model、Multimodal Chain-of-Thought
2. 一段话通俗总结干了什么事
研究团队提出了名为dVLA的模型,它是一种基于扩散模型的视觉-语言-动作(VLA)系统。简单来说,就是让机器人能像人一样“看环境、懂指令、做动作”:通过统一的训练目标,把视觉感知(看图像)、语言推理(理解文字指令)和机器人控制(生成动作)整合到一起,还加入了“多模态思维链”——让机器人在行动前先生成子目标图像(比如“接下来要抓的杯子在哪”的画面)和文字推理(比如“先把杯子从托盘移到盒子”)。同时,为了解决实际使用时反应慢的问题,还加了两种加速方法,最终在仿真(LIBERO基准)和真实机器人(Franka机械臂)上都表现很好,比如仿真中平均成功率达96.4%,真实场景能完成复杂的分箱拾取任务。
3. 本文核心创新点比前人创新在哪里
相比前人的VLA模型,dVLA的核心创新主要有三点:
- 解决了“目标冲突”问题:前人将视觉-文本数据与机器人动作数据分开训练,容易出现梯度冲突(比如优化感知的梯度会干扰动作学习),而dVLA用单一扩散目标统一优化三者,避免了冲突,强化了跨模态推理能力;
- 强化了“多模态思维链”:前人虽有思维链设计,但多是单一文本或视觉形式,dVLA首次让机器人同时生成子目标图像(视觉思维)、文字推理(语言思维)和动作序列,且通过“随机掩盖token并重建”的方式,让三者高度一致,甚至能预测动作失败的画面(比如“杯子会卡在机械臂和盒子间”);
- 兼顾“性能与速度”:前人扩散模型类VLA推理速度慢,难以实际部署,dVLA加入前缀注意力掩码和KV缓存两种加速策略,在几乎不损失性能的前提下,将推理速度提升近2倍,满足真实机器人实时性需求。
4. 本文要解决什么问题
现有VLA模型存在三大关键问题,dVLA旨在针对性解决:
- 训练目标冲突:视觉-文本数据的训练目标(保留预训练知识、理解场景)与机器人动作数据的训练目标(学习精准控制)不同,导致梯度干扰,影响动作学习效果;
- 多模态融合困难:将图像生成(视觉)、语言推理(文本)与动作生成(控制)整合到同一模型时,因训练目标和架构差异,难以协调三者,无法充分利用跨模态知识,也难以捕捉“动作-图像”间的物理规律;
- 推理延迟过高:加入多模态思维链后,模型计算量增加,推理速度慢,无法满足真实机器人(如机械臂、自动驾驶)的实时控制需求。
5. 解决方法/算法的通俗解释,以及整体流程
解决方法通俗解释
- 统一“数据语言”:先把视觉(图像)、文本(指令)、动作(机械臂运动)这三种不同类型的数据,都转换成模型能理解的“离散token”(类似给每种数据编统一的“密码本”):用MAGViT-v2转图像、LLaDA tokenizer转文本、FAST转动作;
- 统一“训练任务”:用“扩散模型”的思路训练——训练时随机掩盖一部分token(比如掩盖子目标图像token或动作token),让模型根据未掩盖的token(如当前图像、指令)重建被掩盖的部分,通过这一单一任务,同时优化感知、推理和动作能力;
- 加入“多模态思考步骤”:训练时让模型在生成动作前,先输出“子目标图像”(比如“抓完杯子后杯子该在的位置”)和“文字推理”(比如“先定位绿色杯子,再移动机械臂”),强制模型“先想后做”;
- 加速推理:用“前缀注意力掩码”把输入分成“已知部分”(如当前图像、指令)和“待生成部分”(如子目标、动作),只在同部分内计算注意力,减少计算量;用“KV缓存”把推理中重复计算的中间结果存起来,不用每次重新算,提升速度。
整体流程
- 数据准备:收集仿真(LIBERO)和真实机器人(Franka)的图像、指令、动作数据,将其全部转换成离散token;
- 模型训练:基于MMaDA扩散模型框架,用“掩盖-重建”任务训练模型,同时加入多模态思维链生成要求;
- 推理优化:在模型推理时,启用前缀注意力掩码和KV缓存;
- 部署测试:将训练好的模型部署到仿真环境(LIBERO)和真实Franka机械臂,测试任务成功率和推理速度。
6. 基于了前人的哪些方法
dVLA主要基于4类前人方法构建:
- 扩散语言模型基础:基于MMaDA(Yang et al., 2025)——这是一种离散扩散模型,能统一处理多模态理解与生成,dVLA以此为基础框架,扩展其处理动作数据的能力;
- 动作token化方法:基于FAST(Pertsch et al., 2025)——该方法用离散余弦变换(DCT)和字节对编码(BPE)将连续动作转换成离散token,解决了动作与视觉/文本数据格式不兼容的问题;
- 视觉与文本token化方法:分别基于MAGViT-v2(Yu et al., 2023)和LLaDA tokenizer(Nie et al., 2025),前者用于将图像转换成离散语义token,后者用于处理文本指令;
- 推理加速方法:基于LaViDa(Li et al., 2025b)的前缀注意力掩码思路,以及dLLM-Cache(Liu et al., 2025b)的KV缓存技术,两者结合实现推理加速。
7. 实验设置、数据、评估方式是什么样的
实验设置
- 仿真环境:使用LIBERO基准(机器人操纵 lifelong 学习基准),包含4个任务套件(LIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-Long),每个套件10个任务;
- 真实环境:使用7自由度Franka机械臂,搭配2个外部ZED相机和1个Realsense 435i腕部相机,测试4类任务(分箱拾取、开箱、挂杯子、拾取放置);
- 基线模型:对比两类模型——连续动作政策(如Diffusion Policy、GR00T-N1、Octo)和离散动作政策(如OpenVLA、CoTVLA、Discrete Diffusion VLA),还设置“无多模态思维链的dVLA(vanilla dVLA)”作为消融对照。
实验数据
- 仿真数据:LIBERO基准中每个任务含50条人类遥控演示数据,将图像分辨率调整为256×256,过滤未完成任务的演示;
- 真实数据:收集1100条轨迹,其中分箱拾取600条、开箱100条、挂杯子200条、拾取放置200条;
- 多模态思维链数据:子目标图像从“动作块长度±10%”的未来时刻采样,文字推理用SEED-1.5VL生成视频分割标注(长任务如分箱拾取)。
评估方式
- 核心指标:任务成功率(SR,完成任务的轨迹数/总轨迹数)、推理速度(动作生成频率,单位Hz);
- 评估流程:仿真中每个任务测试50次,共500次;真实环境中每个任务测试10次,共40次;
- 消融实验:对比“有无多模态思维链”的成功率差异,以及“有无加速策略”的速度与成功率变化。
8. 客观评价本文的价值
理论价值
- 突破多模态统一训练瓶颈:首次用单一扩散目标解决VLA模型中视觉-文本-动作的训练梯度冲突问题,为跨模态协同学习提供了新范式;
- 强化多模态推理可解释性:通过“子目标图像+文字推理”的思维链设计,让机器人动作生成过程可可视化、可追溯,解决了传统VLA“黑箱决策”的问题,还能预测失败场景,提升安全性。
应用价值
- 推动实际部署:通过前缀注意力掩码和KV缓存实现近2倍推理加速,解决了扩散模型类VLA实时性不足的痛点,使模型能在真实机器人(如工业机械臂、服务机器人)上落地;
- 验证性能优越性:在LIBERO基准上达96.4%平均成功率,超越所有离散/连续动作基线;在真实Franka机械臂上完成复杂分箱拾取任务,证明了模型在实际场景的泛化能力,为工业自动化、家庭服务机器人等领域提供技术支撑。
局限性(客观补充)
目前实验主要集中在桌面级操纵任务,对动态环境(如移动机器人)或更复杂交互(如多机器人协作)的测试不足,未来需进一步扩展场景适应性。
9. 列出和本文相关性最高的3个文献
- Yang, Y., et al. (2025). MMaDA: Multimodal large diffusion language models. arXiv preprint arXiv:2505.15809.(dVLA的核心框架基础,提供离散扩散多模态统一建模思路)
- Pertsch, K., et al. (2025). FAST: Efficient action tokenization for vision-language-action models. arXiv preprint arXiv:2501.09747.(dVLA动作token化的关键方法来源,解决动作与视觉/文本数据兼容问题)
- Liang, Z., et al. (2025). Discrete diffusion VLA: Bringing discrete diffusion to action decoding in vision-language-action policies. arXiv preprint arXiv:2508.20072.(同领域离散扩散VLA baseline,dVLA在实验中直接对比的核心竞品,凸显dVLA的性能优势)
更多推荐


所有评论(0)