【论文自动阅读】dVLA: DIFFUSION VISION-LANGUAGE-ACTION MODEL WITH MULTIMODAL CHAIN-OF-THOUGHT

萌新一个啥都不会

412人浏览 · 2025-12-01 23:46:39

萌新一个啥都不会 · 2025-12-01 23:46:39 发布

1. 题目、时间（精确到月份）、机构（只写英文简称）、3个关键词（仅英文）

题目：dVLA: DIFFUSION VISION-LANGUAGE-ACTION MODEL WITH MULTIMODAL CHAIN-OF-THOUGHT
时间：2025年9月
机构：Midea Group、PKU、SJTU
关键词：dVLA、Diffusion Model、Multimodal Chain-of-Thought

2. 一段话通俗总结干了什么事

研究团队提出了名为dVLA的模型，它是一种基于扩散模型的视觉-语言-动作（VLA）系统。简单来说，就是让机器人能像人一样“看环境、懂指令、做动作”：通过统一的训练目标，把视觉感知（看图像）、语言推理（理解文字指令）和机器人控制（生成动作）整合到一起，还加入了“多模态思维链”——让机器人在行动前先生成子目标图像（比如“接下来要抓的杯子在哪”的画面）和文字推理（比如“先把杯子从托盘移到盒子”）。同时，为了解决实际使用时反应慢的问题，还加了两种加速方法，最终在仿真（LIBERO基准）和真实机器人（Franka机械臂）上都表现很好，比如仿真中平均成功率达96.4%，真实场景能完成复杂的分箱拾取任务。

3. 本文核心创新点比前人创新在哪里

相比前人的VLA模型，dVLA的核心创新主要有三点：

解决了“目标冲突”问题：前人将视觉-文本数据与机器人动作数据分开训练，容易出现梯度冲突（比如优化感知的梯度会干扰动作学习），而dVLA用单一扩散目标统一优化三者，避免了冲突，强化了跨模态推理能力；
强化了“多模态思维链”：前人虽有思维链设计，但多是单一文本或视觉形式，dVLA首次让机器人同时生成子目标图像（视觉思维）、文字推理（语言思维）和动作序列，且通过“随机掩盖token并重建”的方式，让三者高度一致，甚至能预测动作失败的画面（比如“杯子会卡在机械臂和盒子间”）；
兼顾“性能与速度”：前人扩散模型类VLA推理速度慢，难以实际部署，dVLA加入前缀注意力掩码和KV缓存两种加速策略，在几乎不损失性能的前提下，将推理速度提升近2倍，满足真实机器人实时性需求。

4. 本文要解决什么问题

现有VLA模型存在三大关键问题，dVLA旨在针对性解决：

训练目标冲突：视觉-文本数据的训练目标（保留预训练知识、理解场景）与机器人动作数据的训练目标（学习精准控制）不同，导致梯度干扰，影响动作学习效果；
多模态融合困难：将图像生成（视觉）、语言推理（文本）与动作生成（控制）整合到同一模型时，因训练目标和架构差异，难以协调三者，无法充分利用跨模态知识，也难以捕捉“动作-图像”间的物理规律；
推理延迟过高：加入多模态思维链后，模型计算量增加，推理速度慢，无法满足真实机器人（如机械臂、自动驾驶）的实时控制需求。

5. 解决方法/算法的通俗解释，以及整体流程

解决方法通俗解释

统一“数据语言”：先把视觉（图像）、文本（指令）、动作（机械臂运动）这三种不同类型的数据，都转换成模型能理解的“离散token”（类似给每种数据编统一的“密码本”）：用MAGViT-v2转图像、LLaDA tokenizer转文本、FAST转动作；
统一“训练任务”：用“扩散模型”的思路训练——训练时随机掩盖一部分token（比如掩盖子目标图像token或动作token），让模型根据未掩盖的token（如当前图像、指令）重建被掩盖的部分，通过这一单一任务，同时优化感知、推理和动作能力；
加入“多模态思考步骤”：训练时让模型在生成动作前，先输出“子目标图像”（比如“抓完杯子后杯子该在的位置”）和“文字推理”（比如“先定位绿色杯子，再移动机械臂”），强制模型“先想后做”；
加速推理：用“前缀注意力掩码”把输入分成“已知部分”（如当前图像、指令）和“待生成部分”（如子目标、动作），只在同部分内计算注意力，减少计算量；用“KV缓存”把推理中重复计算的中间结果存起来，不用每次重新算，提升速度。

整体流程

数据准备：收集仿真（LIBERO）和真实机器人（Franka）的图像、指令、动作数据，将其全部转换成离散token；
模型训练：基于MMaDA扩散模型框架，用“掩盖-重建”任务训练模型，同时加入多模态思维链生成要求；
推理优化：在模型推理时，启用前缀注意力掩码和KV缓存；
部署测试：将训练好的模型部署到仿真环境（LIBERO）和真实Franka机械臂，测试任务成功率和推理速度。

6. 基于了前人的哪些方法

dVLA主要基于4类前人方法构建：

扩散语言模型基础：基于MMaDA（Yang et al., 2025）——这是一种离散扩散模型，能统一处理多模态理解与生成，dVLA以此为基础框架，扩展其处理动作数据的能力；
动作token化方法：基于FAST（Pertsch et al., 2025）——该方法用离散余弦变换（DCT）和字节对编码（BPE）将连续动作转换成离散token，解决了动作与视觉/文本数据格式不兼容的问题；
视觉与文本token化方法：分别基于MAGViT-v2（Yu et al., 2023）和LLaDA tokenizer（Nie et al., 2025），前者用于将图像转换成离散语义token，后者用于处理文本指令；
推理加速方法：基于LaViDa（Li et al., 2025b）的前缀注意力掩码思路，以及dLLM-Cache（Liu et al., 2025b）的KV缓存技术，两者结合实现推理加速。

7. 实验设置、数据、评估方式是什么样的

实验设置

仿真环境：使用LIBERO基准（机器人操纵 lifelong 学习基准），包含4个任务套件（LIBERO-Spatial、LIBERO-Object、LIBERO-Goal、LIBERO-Long），每个套件10个任务；
真实环境：使用7自由度Franka机械臂，搭配2个外部ZED相机和1个Realsense 435i腕部相机，测试4类任务（分箱拾取、开箱、挂杯子、拾取放置）；
基线模型：对比两类模型——连续动作政策（如Diffusion Policy、GR00T-N1、Octo）和离散动作政策（如OpenVLA、CoTVLA、Discrete Diffusion VLA），还设置“无多模态思维链的dVLA（vanilla dVLA）”作为消融对照。

实验数据

仿真数据：LIBERO基准中每个任务含50条人类遥控演示数据，将图像分辨率调整为256×256，过滤未完成任务的演示；
真实数据：收集1100条轨迹，其中分箱拾取600条、开箱100条、挂杯子200条、拾取放置200条；
多模态思维链数据：子目标图像从“动作块长度±10%”的未来时刻采样，文字推理用SEED-1.5VL生成视频分割标注（长任务如分箱拾取）。

评估方式

核心指标：任务成功率（SR，完成任务的轨迹数/总轨迹数）、推理速度（动作生成频率，单位Hz）；
评估流程：仿真中每个任务测试50次，共500次；真实环境中每个任务测试10次，共40次；
消融实验：对比“有无多模态思维链”的成功率差异，以及“有无加速策略”的速度与成功率变化。

8. 客观评价本文的价值

理论价值

突破多模态统一训练瓶颈：首次用单一扩散目标解决VLA模型中视觉-文本-动作的训练梯度冲突问题，为跨模态协同学习提供了新范式；
强化多模态推理可解释性：通过“子目标图像+文字推理”的思维链设计，让机器人动作生成过程可可视化、可追溯，解决了传统VLA“黑箱决策”的问题，还能预测失败场景，提升安全性。

应用价值

推动实际部署：通过前缀注意力掩码和KV缓存实现近2倍推理加速，解决了扩散模型类VLA实时性不足的痛点，使模型能在真实机器人（如工业机械臂、服务机器人）上落地；
验证性能优越性：在LIBERO基准上达96.4%平均成功率，超越所有离散/连续动作基线；在真实Franka机械臂上完成复杂分箱拾取任务，证明了模型在实际场景的泛化能力，为工业自动化、家庭服务机器人等领域提供技术支撑。

局限性（客观补充）

目前实验主要集中在桌面级操纵任务，对动态环境（如移动机器人）或更复杂交互（如多机器人协作）的测试不足，未来需进一步扩展场景适应性。

9. 列出和本文相关性最高的3个文献

Yang, Y., et al. (2025). MMaDA: Multimodal large diffusion language models. arXiv preprint arXiv:2505.15809.（dVLA的核心框架基础，提供离散扩散多模态统一建模思路）
Pertsch, K., et al. (2025). FAST: Efficient action tokenization for vision-language-action models. arXiv preprint arXiv:2501.09747.（dVLA动作token化的关键方法来源，解决动作与视觉/文本数据兼容问题）
Liang, Z., et al. (2025). Discrete diffusion VLA: Bringing discrete diffusion to action decoding in vision-language-action policies. arXiv preprint arXiv:2508.20072.（同领域离散扩散VLA baseline，dVLA在实验中直接对比的核心竞品，凸显dVLA的性能优势）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

嵌入式硬件篇---无线串口本质全解析

2048 AI社区

【LangChainV1.0 从0到1项目落地】调用模型

2048 AI社区

Linux 网络实验(1)

Linux网络命名空间实验与深度分析本实验通过创建虚拟网络环境，验证了Linux网络命名空间的核心功能。实验一构建了两台直连主机，验证了网络隔离性和独立防火墙规则；实验二模拟了三节点路由拓扑，实现了跨网段通信和NAT转换。关键发现包括：每个命名空间拥有完全独立的协议栈、路由表和防火墙规则通过veth pair可实现命名空间间的虚拟直连路由转发需同时配置IP地址、路由规则和内核转发参数 NA