具身智能VLA论文系列解读（更新中）

标题：发布/更新时间： 2024.05首发，2025.08 最新版 (v5)为什么推荐：这是目前该领域引用率极高的一篇基础综述。它清晰地定义了 VLA 的概念，并把研究方向分为了三类：基于大型语言模型（LLM-based）、基于视觉语言模型（VLM-based）和从头训练的模型。它可以帮你理清 “VLA vs 传统控制” 的区别。你可以用它的分类逻辑来解释为什么现在的机器人比以前的更“聪明”（以前

2303_77547168

459人浏览 · 2026-01-19 20:24:09

2303_77547168 · 2026-01-19 20:24:09 发布

本系列主要包含综述和经典模型的对应论文。

综述方面，我想通过两篇比较有代表性的具身智能方面的VLA综述，来详细了解相关发展，宏观了解各种模型的特性。所以我选取了一篇引用率非常高的，和一篇非常新的综述作为切入点，实现我的目的。

经典模型方面，目前解读了OpenVLA，后续准备继续解读pi系列等，读者有推荐的或者想看的都可以在下方评论留言。

介绍与链接

1. VLA 领域的“百科全书”

标题： A Survey on Vision-Language-Action Models for Embodied AI，arXiv:2405.14093

发布/更新时间： 2024.05首发，2025.08 最新版 (v5)
为什么推荐：
- 这是目前该领域引用率极高的一篇基础综述。
  它清晰地定义了 VLA 的概念，并把研究方向分为了三类：基于大型语言模型（LLM-based）、基于视觉语言模型（VLM-based）和从头训练的模型。
- 它可以帮你理清 “VLA vs 传统控制” 的区别。你可以用它的分类逻辑来解释为什么现在的机器人比以前的更“聪明”（以前是写死规则，现在是理解语言）。

2. 最新的“解剖学”视角（非常适合梳理技术栈）

标题：An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges，arXiv:2512.11362

发布时间： 2025.12 (非常新)
为什么推荐：
- 足够新，包含了很多最新的模型框架。
- 这篇文章非常有结构感，它像解剖一样把 VLA 拆解为：表示、执行、泛化、安全等模块。

3. OpenVLA

标题：OpenVLA: An Open-Source Vision-Language-Action Model， arXiv:2406.09246

发布时间： 2024.6首发，2024.8最新版（v3）
为什么推荐：

论文精读

① A Survey on Vision-Language-Action Models for Embodied AI

一、摘要与引言

背景 (Why Embodied AI?)：
- 原文译意：具身智能被广泛认为是通往通用人工智能（AGI）的关键要素，因为它的核心在于控制智能体在物理世界中执行任务。
- 解读：这确立了VLA的地位——它不是像ChatGPT那样只处理信息的“大脑”，而是有身体、能干活的“实体”。
定义 (What is VLA?)：
- 原文译意：建立在大语言模型（LLM）和视觉-语言模型（VLM）成功的基础上，一类新的多模态模型——视觉-语言-动作模型（VLAs）——应运而生。它利用生成动作的独特能力，解决了具身智能中受语言条件约束的机器人任务。
- 解读：VLA = 视觉 + 语言 + 动作生成。这是它与GPT-4V等模型的最大区别。
本文贡献 (What do we do?)：
- 原文译意：这是关于具身智能VLA的第一篇综述。文章提供了一个详细的分类体系，分为三大主线：
1. 组件：VLA的构成模块（如怎么看、怎么推理）。
2. 控制策略：预测低层动作（如关节角度）的核心算法。
3. 高层任务规划器：将长程任务（如“做早餐”）分解为子任务的模块。
资源与展望：
- 文章还总结了数据集、模拟器、基准测试，并讨论了未来的挑战。

为什么要研究VLA？这里解释了VLA诞生的技术逻辑。

从“缸中之脑”到“具身大脑”

核心观点：VLA是一类能同时处理视觉、语言和动作的模型。
对比：
- 传统对话AI：如ChatGPT，主要处理文本，像“缸中之脑”。
- VLA：必须感知环境并控制物理实体。
挑战：在“语言条件下的机器人任务”中，模型必须同时具备：1. 语言理解；2. 视觉感知；3. 动作生成。

VLA的优越性

术语起源：VLA这个词最早是由谷歌的 RT-2 (Robotic Transformer 2) 提出的。
核心优势：相比传统的“深度强化学习（Deep RL）”，VLA具有更强的：
- 通用性：能干多种活。
- 灵巧性：动作更细腻。
- 泛化能力：这一条最重要。以前的机器人换个桌子就不会抓了，VLA依靠大模型的知识，能适应新环境。

深度学习的演进历史

逻辑链条：
1. 单模态时代：AlexNet（看图）、RNN（读文）、DQN（玩游戏）。
2. 多模态时代：Transformer的出现统一了架构，催生了像CLIP这样的模型。
3. VLA时代：将这种多模态能力引入机器人控制。

第四段：传统方法的瓶颈

痛点：传统的机器人策略通常是在受控环境中针对特定任务训练的。
需求：我们想要的是通用的、能听懂人话的机器人。比如你说“帮我拿瓶水”，它能理解并执行，而不是需要程序员写代码来控制。这推动了“语言条件策略”的发展。

VLA的全景分类体系

VLA通用架构图：

在这里插入图片描述

作者把所有相关的论文和模型归纳进了三条主线，就像把机器人拆解成了三个部分：

支柱一：组件 —— “器官”

这部分研究机器人的“零件”。比如：眼睛怎么看（视觉表征）、脑子怎么转（推理）、怎么预知未来（世界模型）。如果你想改进 VLA 的某个具体能力（比如让它看懂透明玻璃），你就关注这一块。
支柱二：控制策略 —— “小脑与脊髓”

这部分是 VLA 的本体。输入是图像和指令，输出直接是动作。而作者把这里分成了两派：
- Transformer派：像做完形填空一样预测动作（如 RT-2）。
- Diffusion派：像画图一样生成动作轨迹（如 Octo）。
支柱三：任务规划器—— “大脑皮层”

这部分负责宏观指挥。当任务很长（比如“把厨房收拾干净”）时，底层的 VLA 搞不定。这时需要一个 Planner 把大任务切分成小任务（“去水槽” -> “拿海绵” -> “擦桌子”）。事实上，这里主要研究如何把 GPT-4 这种纯语言模型接入到机器人系统里。

VLA 的发展时间线

在这里插入图片描述
这张图分为两个部分：

图 2(a) - 韦恩图：

目的：解决概念混淆。

内容：它画了几个圈，解释了 “Large VLA” (大模型VLA) 和 “General VLA” (通用VLA) 的关系。

核心定义：作者提出，VLA 是一个广义概念，指任何“视觉+语言->动作”的模型。而像 RT-2 这种基于 LLM 微调的，被特指为 “Large VLA”（类似 LLM 之于 LM）。
图 2(b) - 时间线：

展示了三条平行进化的路线，最终汇聚成 VLA：

单模态 (Unimodal)：ResNet, BERT。

多模态 (Multimodal)：CLIP, ViLBERT。

具身智能 (Embodied AI)：DQN -> Gato -> RT-2。

2022年之前：主要是传统的 BC（行为克隆）和 RL（强化学习）。

2022年转折点：Gato 和 RT-1 出现。Gato 证明了一个模型可以同时玩游戏、聊代天、控制机器人；RT-1 证明了 Transformer 可以控制真机器人。

2023年爆发：PaLM-E、RT-2、VoxPoser 井喷。大模型正式接管机器人身体。