CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

提出CoT-VLA：把视觉-语言-动作模型和思维链结合，通过引入中间视觉目标（subgoal images）作为显式推理步骤，与传统用或关键点的抽象表示不同，使用视频中采样的子目标图像，既可解释又有效，基于VILA-U模型构建，在多种机器人操作上表现较好。但是也存在计算开销大，视觉质量欠佳（自回归图像生成不如扩散模型)，动作分块导致动作可能不连续（这一个动作片段和下一个动作片段不连续），视觉推理泛

XIAOXIAOWU99-

1293人浏览 · 2025-11-12 15:56:38

XIAOXIAOWU99- · 2025-11-12 15:56:38 发布

序号	属性	值
1	论文名称	CoT-VLA
2	发表时间/位置	2025
3	Code	cot-vla.github.io
4	创新点	1. 视觉思维链（Visual CoT）首次将 Chain-of-Thought 推理引入 VLA，用“生成未来图像”替代抽象推理，让机器人“先想一幅图，再做一组动作”。 2. 混合注意力机制（Hybrid Attention）图像生成用因果自回归，动作预测用全注意力一次性输出，比传统 VLA（全因果）更高效、更准确。 3. 动作分块预测（Action Chunking）一次预测 m 步动作（m=10），而非单步，减少延迟、提升流畅性，在长时程任务中提升显著。 4. 多模态预训练策略，无动作视频增强视觉推理，利用 EPIC-KITCHENS、SSv2 等海量视频数据训练图像生成，无需动作标签即可提升视觉理解与规划能力，突破机器人数据稀缺瓶颈。
5	引用量	视觉cot是亮点

一：提出问题

传统的VLA模型会通过图像和指令输出一个动作序列。但是这个过程直接从图像到动作，中间没有“思考”，模型不知道中间目标状态是什么，因此在复杂的任务里容易出错且不稳定。

如何让机器人也具有向日一样的思考过程，在执行前一步的时候，思考下一步在画面应该是啥很么样。这就是视觉思维链。让VLA模型也能够做到先想像再行动。

当前图像 + 指令 → 预测“子目标图像”（下一步应该看到的画面） → 根据当前图像 + 子目标图像 → 生成动作

模型先生成一张“它认为执行完下一步后应该看到的画面”，然后再想“我要做哪些动作才能让现实变成那样”。

COT-VLA模型分为两个阶段，分别是视觉思考和动作生成。视觉思考阶段会输出当前观测图像和语言指令，输出下一步目标图思想，模型采用自回归的方式预测未来帧，像视频生成那样，相当”脑补下一步的画面“。之后进入动作生成阶段，这个阶段输入当前阶段的图像 + 子目标图像 + 语言指令，输出一段短的动作序列（不是单个动作），模型根据现在和“想象中的未来”，预测要做的动作。它不是一步一步地输出，而是一次输出一段。

模型的训练数据包括两种：机器人演示数据（有动作，用于学习从状态 → 子目标 → 动作的完整映射。）和普通视频数据（无动作，用来训练视觉思维（即预测未来图像），增强视觉推理能力。）

hybrid attention：混合注意力机制，Transformer 的注意力分为两种，分别是：

Causal Attention（因果注意力）：像语言模型那样，一个 token 只能看前面的内容（适合生成图像或文本）。
Full Attention（全注意力）：每个 token 可以看整个序列（适合动作预测）。

因此CoT-VLA根据不同阶段使用了两种注意力机制，图像、文本生成 → 用因果注意力、动作预测 → 用全注意力。这样做可以实现推理部分像语言模型那样一步步的生成，而在控制部分则向策略网络一样一次性考虑所有的信息。

CoT-VLA 首次将“视觉思维链”引入机器人控制：让模型先“画出”下一步该长什么样，再生成动作，显著提升复杂任务成功率，达到真实世界 SOTA。

二：解决方案

1 COT-VLA

Visual Chain-of-Thought Reasoning：视觉思维连推理，采用两种数据类型用于VLA的训练，分别是机器人演示数据集Dr和无动作视频数据集Dv。

传统方法直接基于预训练的VLM微调从而把视觉输入和语言输入映射为动作输出。COT-VLA在生成动作之前，引入显式的视觉推理步骤（也就是“先想象，再行动”）。

CoT-VLA 让机器人具备“视觉思维链”能力，在执行动作前，先通过想象未来画面进行视觉层面的推理，再生成动作。

Training Procedures：在 机器人演示数据 Dr和 无动作视频 Dv 上预训练基础 7B VILA-U 模型。训练中优化三个模块：

LLM backbone（大语言模型主干）
Projector（映射层）
Depth Transformer（深度残差预测）

Vision tower 固定不动（用于提取视觉 token 的编码器），目标主要是两个，子目标图像生成（causal attention）和动作生成（full attention）。

视觉token预测阶段式因果注意力：

*kjd *：第 j 个 patch 的第 d 个残差 token
kj,<d：前 d−1 个已预测的残差 token
就像GPT预测下一个词一样，这里是预测下一个图像残差。

图像被编码成 token（类似文字的最小单元），之后每个 token 位置 jj 由 Depth Transformer PδP**δ 预测 D 层残差 token（图像生成是一层一层的，先大体轮廓再细节到最最后完成，这里就是预测每一步的新增信息，就是所谓的残差。）

自回归预测，预测第d个token时，会参考前面已经预测的token:

动作预测阶段式全注意力：

s_t, s_{t+n}：当前和未来图像（视觉思维链生成的子目标）
a_t, ..., a_{t+m}：模型要生成的动作序列

每个动作ai使用 7 个 token表示（动作有 7 个维度，对应机器人 7-DoF），每个连续动作维度被离散化成 256 个 bin，使用文本 tokenizer 中 最少用的 256 个 token 来表示这些 bin。使用 full attention → 动作序列中的所有 token 可以互相影响

训练总体目标就是两项损失之和。两者同时优化 → 模型学会先“想象未来画面”，再“生成动作去实现未来画面”

Adaptation Phase for Downstream Closed-Loop Deployment： CoT-VLA 的下游任务适配阶段

预训练模型：学会“先想象未来画面，再执行动作”的通用策略
微调阶段：把模型调成适合你家机器人的操作习惯
- 不改视觉塔 → 保留通用视觉理解能力
- 调整语言/动作生成 → 让模型输出动作精确适应你机器人的手臂、关节
闭环部署：机器人接收指令 → 生成子目标图像 → 生成动作 → 执行任务

微调阶段用目标机器人的真实演示数据，在冻结视觉塔的前提下，继续训练“思考（生成图）+ 行动（预测块）”两阶段，让 CoT-VLA 具备闭环执行新任务的能力。

三：实验

过仿真基准 + 真实机器人操作两大类实验，全面评估 CoT-VLA 的有效性。本节回答三个核心问题：

与 SOTA 基线相比表现如何？（4.2）
预训练、视觉 CoT、混合注意力各自贡献多少？（4.3）
更好的视觉推理能否提升动作执行？（4.4）

通过实验验证发现：“

CoT-VLA 在仿真和真实世界均达到 SOTA，尤其长时程和多指令任务。
三大组件都关键：Action Chunking > Hybrid Attention > Visual CoT。
无动作视频预训练 + 更好的视觉推理 = 机器人性能上限

四：总结

提出 CoT-VLA：把视觉-语言-动作模型和思维链结合，通过引入 中间视觉目标（subgoal images） 作为显式推理步骤，与传统用 bounding box 或 关键点 的抽象表示不同，使用 视频中采样的子目标图像，既可解释又有效，基于VILA-U模型构建，在多种机器人操作上表现较好。

但是也存在计算开销大，视觉质量欠佳（自回归图像生成不如扩散模型)，动作分块导致动作可能不连续（这一个动作片段和下一个动作片段不连续），视觉推理泛化性受限。

在未来可以：

利用 快速图像生成 / 快速 LLM 推理 提升吞吐量
结合统一多模态模型改善视觉质量
引入 时间平滑（temporal smoothing） 或每步预测方法改善动作连续性
利用 视频/图像生成和世界模型（world models） 提升视觉推理能力和任务泛化

World Model（世界模型）是指：

对环境的内部表示或预测模型

可以预测未来状态（图像、特征、奖励、物体位置等）

可以用于计划和推理，不用每次都去实际执行动作

是一种让智能体“先在脑子里演练，再去真实世界执行”的方法

没有 world model：机器人看到书在桌上 → 马上抓 → 抓错了要重新调整 有 world model：机器人看到书在桌上 → 在脑子里预测抓的轨迹 → 决定最佳动作 → 一次就成功

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【愚公系列】《腾讯元宝从入门到精通》031-元宝在学术论文写作领域的应用（生成文献综述）

2048 AI社区

CANN × 智慧农业：端侧病虫识别系统设想

2048 AI社区

【无人机】基于信念共识与测量共享的不确定环境分布式估计研究（Matlab代码实现）

在动态不确定环境下，无人机集群的分布式估计面临通信噪声、数据丢失、拓扑时变等挑战。本文提出基于信念共识与测量共享的分布式估计框架，通过构建多智能体共享生成模型实现贝叶斯信念更新，结合随机逼近-趋同算法与网络共识机制，解决强噪声、低检测率及杂波环境中的多目标跟踪问题。仿真与实测验证表明，该框架在50%通信丢失率下仍保持92%的估计精度，较传统方法提升37%。