本系列主要包含综述和经典模型的对应论文。

综述方面,我想通过两篇比较有代表性的具身智能方面的VLA综述,来详细了解相关发展,宏观了解各种模型的特性。所以我选取了一篇引用率非常高的,和一篇非常新的综述作为切入点,实现我的目的。

经典模型方面,目前解读了OpenVLA,后续准备继续解读pi系列等,读者有推荐的或者想看的都可以在下方评论留言。


介绍与链接

1. VLA 领域的“百科全书”

标题: A Survey on Vision-Language-Action Models for Embodied AI,arXiv:2405.14093

  • 发布/更新时间: 2024.05首发,2025.08 最新版 (v5)

  • 为什么推荐:

    • 这是目前该领域引用率极高的一篇基础综述。
      它清晰地定义了 VLA 的概念,并把研究方向分为了三类:基于大型语言模型(LLM-based)、基于视觉语言模型(VLM-based)和从头训练的模型。

    • 它可以帮你理清 “VLA vs 传统控制” 的区别。你可以用它的分类逻辑来解释为什么现在的机器人比以前的更“聪明”(以前是写死规则,现在是理解语言)。

2. 最新的“解剖学”视角(非常适合梳理技术栈)

标题:An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges,arXiv:2512.11362

  • 发布时间: 2025.12 (非常新)

  • 为什么推荐:

    • 足够新,包含了很多最新的模型框架。
    • 这篇文章非常有结构感,它像解剖一样把 VLA 拆解为:表示、执行、泛化、安全等模块。

3. OpenVLA

标题:OpenVLA: An Open-Source Vision-Language-Action Model, arXiv:2406.09246

  • 发布时间: 2024.6首发,2024.8最新版(v3)

  • 为什么推荐:


论文精读

① A Survey on Vision-Language-Action Models for Embodied AI

一、摘要与引言

  • 背景 (Why Embodied AI?):

    • 原文译意:具身智能被广泛认为是通往通用人工智能(AGI)的关键要素,因为它的核心在于控制智能体在物理世界中执行任务。

    • 解读:这确立了VLA的地位——它不是像ChatGPT那样只处理信息的“大脑”,而是有身体、能干活的“实体”。

  • 定义 (What is VLA?):

    • 原文译意:建立在大语言模型(LLM)和视觉-语言模型(VLM)成功的基础上,一类新的多模态模型——视觉-语言-动作模型(VLAs)——应运而生。它利用生成动作的独特能力,解决了具身智能中受语言条件约束的机器人任务。

    • 解读:VLA = 视觉 + 语言 + 动作生成。这是它与GPT-4V等模型的最大区别。

  • 本文贡献 (What do we do?):

    • 原文译意:这是关于具身智能VLA的第一篇综述。文章提供了一个详细的分类体系,分为三大主线:
    1. 组件:VLA的构成模块(如怎么看、怎么推理)。

    2. 控制策略:预测低层动作(如关节角度)的核心算法。

    3. 高层任务规划器:将长程任务(如“做早餐”)分解为子任务的模块。

  • 资源与展望:

    • 文章还总结了数据集、模拟器、基准测试,并讨论了未来的挑战。

为什么要研究VLA?这里解释了VLA诞生的技术逻辑。

  1. 从“缸中之脑”到“具身大脑”
  • 核心观点:VLA是一类能同时处理视觉、语言和动作的模型。

  • 对比:

    • 传统对话AI:如ChatGPT,主要处理文本,像“缸中之脑”。

    • VLA:必须感知环境并控制物理实体。

  • 挑战:在“语言条件下的机器人任务”中,模型必须同时具备:1. 语言理解;2. 视觉感知;3. 动作生成。

  1. VLA的优越性
  • 术语起源:VLA这个词最早是由谷歌的 RT-2 (Robotic Transformer 2) 提出的。

  • 核心优势:相比传统的“深度强化学习(Deep RL)”,VLA具有更强的:

    • 通用性:能干多种活。

    • 灵巧性:动作更细腻。

    • 泛化能力:这一条最重要。以前的机器人换个桌子就不会抓了,VLA依靠大模型的知识,能适应新环境。

  1. 深度学习的演进历史
  • 逻辑链条:

    1. 单模态时代:AlexNet(看图)、RNN(读文)、DQN(玩游戏)。

    2. 多模态时代:Transformer的出现统一了架构,催生了像CLIP这样的模型。

    3. VLA时代:将这种多模态能力引入机器人控制。

  1. 第四段:传统方法的瓶颈
  • 痛点:传统的机器人策略通常是在受控环境中针对特定任务训练的

  • 需求:我们想要的是通用的、能听懂人话的机器人。比如你说“帮我拿瓶水”,它能理解并执行,而不是需要程序员写代码来控制。这推动了“语言条件策略”的发展。

VLA的全景分类体系

VLA通用架构图:

在这里插入图片描述
在这里插入图片描述

作者把所有相关的论文和模型归纳进了三条主线,就像把机器人拆解成了三个部分:

  • 支柱一:组件 —— “器官”

    这部分研究机器人的“零件”。比如:眼睛怎么看(视觉表征)、脑子怎么转(推理)、怎么预知未来(世界模型)。如果你想改进 VLA 的某个具体能力(比如让它看懂透明玻璃),你就关注这一块。

  • 支柱二:控制策略 —— “小脑与脊髓”

    这部分是 VLA 的本体。输入是图像和指令,输出直接是动作。而作者把这里分成了两派:

    • Transformer派:像做完形填空一样预测动作(如 RT-2)。

    • Diffusion派:像画图一样生成动作轨迹(如 Octo)。

  • 支柱三:任务规划器—— “大脑皮层”

    这部分负责宏观指挥。当任务很长(比如“把厨房收拾干净”)时,底层的 VLA 搞不定。这时需要一个 Planner 把大任务切分成小任务(“去水槽” -> “拿海绵” -> “擦桌子”)。事实上,这里主要研究如何把 GPT-4 这种纯语言模型接入到机器人系统里。

VLA 的发展时间线

在这里插入图片描述
这张图分为两个部分:

  • 图 2(a) - 韦恩图:

    目的:解决概念混淆。

    内容:它画了几个圈,解释了 “Large VLA” (大模型VLA) 和 “General VLA” (通用VLA) 的关系。

    核心定义:作者提出,VLA 是一个广义概念,指任何“视觉+语言->动作”的模型。而像 RT-2 这种基于 LLM 微调的,被特指为 “Large VLA”(类似 LLM 之于 LM)。

  • 图 2(b) - 时间线:

    展示了三条平行进化的路线,最终汇聚成 VLA:

    单模态 (Unimodal):ResNet, BERT。

    多模态 (Multimodal):CLIP, ViLBERT。

    具身智能 (Embodied AI):DQN -> Gato -> RT-2。

2022年之前:主要是传统的 BC(行为克隆)和 RL(强化学习)。

2022年转折点:Gato 和 RT-1 出现。Gato 证明了一个模型可以同时玩游戏、聊代天、控制机器人;RT-1 证明了 Transformer 可以控制真机器人。

2023年爆发:PaLM-E、RT-2、VoxPoser 井喷。大模型正式接管机器人身体。

二、VLA模型

核心问题:机器人应该怎么“看”世界?

普通的计算机视觉(比如 ImageNet 分类)只能告诉机器人“这是一瓶水”。但这对机器人不够,机器人需要知道“瓶盖在哪”、“有多重”、“能不能捏扁”。因此论文对比了三种视觉编码器的进化路线:

第一代:通用视觉

  • 代表:ImageNet 预训练的 ResNet。

  • 缺点:懂分类,不懂物理。它知道那是“锤子”,但不知道“锤柄”是用来抓的地方。

第二代:语义对齐

  • 代表:CLIP (OpenAI)。

  • 原理:用互联网上海量的“图-文”对进行训练。

  • 优势:懂语义。如果你告诉机器人“捡起那个毛茸茸的东西”,虽然机器人从没见过这个玩偶,但 CLIP 能把“毛茸茸”和视觉特征对齐,机器人就能做对。

  • 局限:对空间位置不敏感。

第三代:具身视觉

  • 代表:R3M (Representation for Robot Manipulation), VIP.

  • 核心逻辑:不再看静态图,而是看视频(Ego4D数据集,人类第一人称视角的做事视频)。

  • R3M:通过对比学习,学习视频中手和物体的交互。它能理解“手靠近杯子” -> “手接触杯子” -> “杯子被拿起”的过程。

  • VIP:引入了价值的概念。它把图像编码成一个“距离目标的进度条”。如果你离目标越近,VIP 输出的特征值就越代表“高价值”,这对机器人做决策是非常强大的辅助。


An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges


OpenVLA: An Open-Source Vision-Language-Action Model

详见我的另一篇文章:OpenVLA学习记录(论文解读与复现微调)

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐