25年8月来自中科大的论文“Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning”。

具身人工智能旨在开发具有物理形态的智能系统,使其能够在现实环境中感知、决策、行动和学习,为通用人工智能(AGI)的发展提供一条充满希望的途径。尽管经过数十年的探索,具身智体在开放动态环境中实现人类级别的通用任务智能仍然充满挑战。大模型的最新突破通过增强感知、交互、规划和学习能力,彻底改变了具身人工智能。本文将对基于大模型的具身人工智能进行全面综述,重点关注自主决策和具身学习。其研究分层和端到端决策范式,详细说明大模型如何增强分层决策的高级规划、低级执行和反馈,以及大模型如何增强端到端决策的视觉-语言-动作(VLA)模型。在具身学习方面,介绍主流的学习方法,并深入阐述大模型如何增强模仿学习和强化学习。其将世界模型纳入具身人工智能的综述中,并展示它们的设计方法及其在增强决策和学习方面的关键作用。尽管取得了扎实的进展,但仍存在一些挑战,并探讨这些挑战可能作为进一步研究的方向。

。。。。。。继续。。。。。。

分层范式依赖于独立的任务规划、动作执行和反馈模块,因此容易出现错误累积,难以在不同任务之间进行泛化。此外,从大模型中获取的高级语义知识难以直接应用于机器人动作执行,从而导致集成方面的差距。为了应对这些挑战,端到端自主决策近年来备受关注,它将多模态输入(即视觉观察和语言指令)直接映射到动作。它通常由 VLA 实现,如图所示。

请添加图片描述

视觉-语言-动作模型

VLA 模型将感知、语言理解、规划、动作执行和反馈优化集成到一个统一的框架中,代表了具身人工智能的突破。通过利用大模型丰富的先验知识,VLA 模型能够在动态开放的环境中实现精准且自适应的任务执行。一个典型的 VLA 模型包含三个关键组件:token 化和表示、多模态信息融合以及动作去 token 化,如图所示。

请添加图片描述

(1) Token 化和表征。VLA 模型使用四种 token 类型:视觉、语言、状态和动作,对多模态输入进行编码,从而生成具有情境-觉察的动作。视觉 token 和语言 token 将环境场景和指令编码为嵌入向量,构成任务和情境的基础。状态 token 捕获智体的物理配置,包括关节位置、力-扭矩、夹持器状态、末端执行器姿态和物体位置。动作 token 基于先前 token 自回归生成,表示低级控制信号(例如,关节角度、扭矩、车轮速度)或高级运动原语(例如,“移动到抓取姿势”、“旋转手腕”),使 VLA 模型能够充当语言驱动的策略生成器。

(2) 多模态信息融合。视觉 token、语言 token 和状态 token 通过跨模态注意机制融合为统一的嵌入向量,用于决策,该机制通常在 Transformer 架构中实现。该机制动态地权衡每种模态的贡献,使 VLA 模型能够根据任务上下文对目标语义、空间布局和物理约束进行联合推理。

(3) 动作去 token 化。融合后的嵌入随后被传递到自回归解码器(通常在 Transformer 架构中实现),以生成一系列与低级控制信号或高级运动原语相对应的动作 token。动作生成可以是离散的,也可以是连续的。在离散动作生成中,模型从一组预定义的动作(例如特定的运动原语或离散化的控制信号)中进行选择,这些动作被映射到可执行命令。在连续动作生成中,模型输出细粒度的控制信号,这些信号通常使用最终的 MLP 层从连续分布中采样,从而实现精确的操作或导航。这些动作 token 通过映射到可执行控制命令来去 token 化,这些控制命令被传递到执行循环。循环反馈更新的状态信息,使 VLA 模型能够实时动态地适应扰动、目标移动或遮挡。

Robotics Transformer 2 (RT-2)[234] 是一个著名的 VLA 模型。它利用 Vision Transformer (ViT)[45] 进行视觉处理,并利用 PaLM 集成视觉、语言和机器人状态信息。具体而言,RT-2 将动作空间离散化为八个维度(包括六自由度末端执行器位移、夹持器状态和终止命令)。除终止命令外,每个维度都被划分为 256 个离散区间,并作为动作 token 嵌入到 VLM 词汇表中。在训练过程中,RT-2 采用两阶段策略:首先使用互联网规模的视觉语言数据进行预训练,以增强语义泛化能力;然后进行微调,将输入(即机器人摄像头图像和文本任务描述)映射到输出(即动作词标记序列,例如“1 128 91 241 5 101 127 255”)。经过训练的 VLA 模型能够基于视觉语言输入,以自回归的方式生成动作单词,并通过预定义的映射表将其解码为特定的动作序列。通过将动作建模为“语言”,RT-2 能够利用大模型的功能,利用丰富的语义知识来增强低级动作命令。

VLA 的增强

尽管 VLA 端到端决策架构功能强大,但它也存在一些明显的局限性,限制了其在复杂具身任务中的表现。首先,实时闭环机制导致 VLA 模型对视觉和语言输入的扰动高度敏感,其中视觉噪声(例如遮挡或杂​​乱的背景)会破坏动作输出的稳定性,从而影响任务的可靠性。此外,对二维感知的依赖限制模型解释复杂三维空间关系的能力。其次,动作生成过程通常依赖于输出层过于简单的策略网络,这难以满足高精度和动态演化任务的要求,导致轨迹不够理想。第三,训练 VLA 模型需要大量的计算资源,这会导致部署成本高昂且可扩展性面临挑战。为了解决这些问题并提升 VLA 在复杂场景中的适用性,研究人员提出一些增强功能。它们可分为:感知能力增强(解决第一个问题)、轨迹动作优化(解决第二个问题)和训练成本降低(解决第三个问题),如图所示。

请添加图片描述

感知能力增强。为了提高感知能力,BYO-VLA[74] 通过实现运行时观察干预机制优化了 token 化和表示组件,该机制利用自动图像预处理来滤除源自遮挡物体和杂乱背景的视觉噪声。TraceVLA[229] 专注于多模态信息融合组件,将视觉轨迹提示引入跨模态注意机制。通过将轨迹相关数据与视觉、语言和状态 token 相结合,TraceVLA 增强时空感知,从而实现精确的动作轨迹预测。BYO-VLA 提高输入质量,而 TraceVLA 则改进融合过程中动态信息的整合。对于3D感知,3D-VLA[226]将3D大模型与基于扩散的世界模型相结合,用于处理点云和语言指令。它生成语义场景表示并预测未来的点云序列,从而提升3D物体关系理解能力,从而在复杂的3D场景中超越2D VLA模型。SpatialVLA[147]进一步强调机器人排序任务中的空间理解问题。它提出Ego3D位置编码,将3D信息直接注入输入观测值中,并采用自适应动作方案来提高机器人在不同环境中的适应性。

轨迹动作优化。离散动作空间限制未定义或高精度动作的表达。扩散增强方法可以通过扩散模型对复杂的机器人行为进行建模,从而提供更平滑、更可控的动作。Octo[180]结合 Transformer 和扩散模型来生成机器人动作。它通过 Transformer 处理多模态输入,提取视觉-语言特征,并使用条件扩散解码器基于这些特征迭代优化动作序列,从而生成平滑、精确的轨迹。通过模块化设计和高效的微调,Octo 仅需少量特定于任务的数据即可实现跨任务泛化。Diffusion-VLA[196] 将语言模型与扩散策略解码器结合成一个统一的框架。它使用自回归语言模型解析语言指令并生成初步的任务表示,这些表示被输入到扩散策略解码器中,通过逐步去噪过程优化动作序列。Diffusion-VLA 在整个框架上采用端到端训练,共同优化语言理解和动作生成。扩散过程会在每一步纠正自回归输出的不连续性,确保动作轨迹的平滑性和鲁棒性。与 Octo 相比,Diffusion-VLA 的计算成本较高,但更适合需要深度语义-动作融合的复杂任务。

降低训练成本。复杂任务中的 VLA 模型需要较高的计算成本,这在资源受限的实体平台上受到限制。为了降低训练成本,研究人员提出一些优化方法,在保持任务性能的同时,提高推理速度、数据效率和实时性。𝜋0[18] 利用流匹配来表示复杂的连续动作分布。与扩散模型中使用的多步采样相比,流匹配通过连续流场建模来优化动作生成过程,从而降低计算开销并提高实时性能。与 Diffusion-VLA[196] 和 Octo[180] 相比,计算效率和控制精度的提升使 𝜋0 更适用于资源受限的具身化应用,尤其是需要高精度连续控制的任务。此外,TinyVLA[234] 通过设计轻量级多模态模型和扩散策略解码器,显著提升推理速度和数据效率。OpenVLA-OFT[92] 使用并行解码而非传统的自回归生成,在单次前向传播中生成完整的动作序列,而无需逐一生成,从而显著缩短了推理时间。

主流 VLA 模型

近年来涌现出大量 VLA 模型,它们具有不同的架构和功能。为了更好地理解和部署,在下表中对它们的架构、贡献和功能增强进行总结和比较:P:感知,A:轨迹动作,C:训练成本。

请添加图片描述
请添加图片描述
请添加图片描述

分层决策与端到端决策

分层决策和端到端决策,代表实现具身智能自主决策的两种不同范式,它们各自具有独特的设计理念、实施策略、性能特征和应用领域。如表所示,概述它们在架构、性能、可解释性、泛化性等方面的关键差异。

分层架构将决策过程分解为多个模块,每个模块分别处理感知、规划、执行和反馈等特定方面。其核心思想是将复杂任务分解为可管理的子任务,以增强可调试性、优化和维护性。分层架构擅长集成领域知识(例如物理约束、规则),为具身任务提供高度的可解释性和可靠性。但它们的局限性也显而易见。模块分离可能会因协调不当而导致次优解决方案,尤其是在动态复杂环境中。手动任务分解可能会影响其对未知场景和任务的适应性。

端到端架构采用大规模神经网络(VLA),无需模块化分解,即可将多模态输入直接映射到动作。VLA 通常构建于大型多模态模型之上,并在海量数据集上进行训练,从而同时实现视觉感知、语言理解和动作生成。由于高度集成的架构,VLA 能够最大限度地减少模块间的误差累积,并通过端到端优化实现高效学习。由于在大规模多模态数据集上进行训练,VLA 对非结构化环境中的复杂任务具有很强的泛化能力。然而,VLA 的黑箱特性降低可解释性,使得分析决策过程变得困难。VLA 的性能在很大程度上依赖于训练数据的质量和多样性。端到端训练的计算成本也很高。

请添加图片描述
请添加图片描述

。。。。。。待续。。。。。。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐