25年8月来自中科大的论文“Large Model Empowered Embodied AI: A Survey on Decision-Making and Embodied Learning”。

具身人工智能旨在开发具有物理形态的智能系统,使其能够在现实环境中感知、决策、行动和学习,为通用人工智能(AGI)的发展提供一条充满希望的途径。尽管经过数十年的探索,具身智体在开放动态环境中实现人类级别的通用任务智能仍然充满挑战。大模型的最新突破通过增强感知、交互、规划和学习能力,彻底改变了具身人工智能。本文将对基于大模型的具身人工智能进行全面综述,重点关注自主决策和具身学习。其研究分层和端到端决策范式,详细说明大模型如何增强分层决策的高级规划、低级执行和反馈,以及大模型如何增强端到端决策的视觉-语言-动作(VLA)模型。在具身学习方面,介绍主流的学习方法,并深入阐述大模型如何增强模仿学习和强化学习。其将世界模型纳入具身人工智能的综述中,并展示它们的设计方法及其在增强决策和学习方面的关键作用。尽管取得了扎实的进展,但仍存在一些挑战,并探讨这些挑战可能作为进一步研究的方向。

。。。。。。继续。。。。。。

具身学习旨在使智体能够获得复杂的技能,并在与环境的交互过程中不断提升自身能力[227]。通过不断学习和优化技能,智体可以实现精准的决策和实时适应。这种能力可以通过协调多种学习策略来实现,如图所示。模仿学习使智体能够快速获得初始策略,迁移学习[152]促进跨不同任务的知识迁移,元学习[51]使智体能够学习如何学习,而强化学习[11]则通过与环境的持续交互来优化策略。然而,这些学习方法在具身人工智能中仍然面临着重大的技术挑战。模仿学习难以捕捉复杂的行为,而强化学习往往受到有效奖励函数设计复杂性的阻碍。近年来,Transformer 和大模型的出现促使研究人员探索将大模型与学习方法相结合,以克服这些局限性。

请添加图片描述

具身学习方法

具身智体应该能够在其整个生命周期中获取新知识并学习新任务,而不是依赖于初始训练数据集[227]。这种能力对于现实世界的复杂性和多变性至关重要,因为现实世界中新任务和新挑战层出不穷。具身学习可以建模为一个目标条件部分可观马尔可夫决策过程,定义为一个八元组 (𝑆,𝐴,𝐺,𝑇,𝑅,Ω,𝑂,𝛾),其中

• 𝑆 是环境状态的集合。每个状态都编码多模态信息,例如文本描述、图像或结构化数据。
• 𝐴 是动作的集合。每个动作都代表一条指令或命令,通常用自然语言表达。
• 𝐺 是可能目标的集合。𝑔 ∈ 𝐺 指定一个特定目标,例如购买一台笔记本电脑。
• 𝑇(𝑠′|𝑠, 𝑎) 是状态转移概率函数。对于每个状态-动作对 (𝑠, 𝑎),𝑇(·) 定义下一个状态 𝑠′ ∈ 𝑆 的概率分布。
• 𝑅 : 𝑆 × 𝐴 × 𝐺 → 𝑅 是目标条件奖励函数,用于评估状态 𝑠 下动作 𝑎 对目标的推进程度。对于每个三元组 (𝑠, 𝑎, 𝑔),奖励可以是数字(例如分数)或文本(例如“做得好”),从而为目标提供交互式反馈。
• Ω 是一组观察值,可能包含文本、视觉或多模态数据,表示智体对状态的部分看法。
• 𝑂(𝑜′ | 𝑠′, 𝑎) 是观察概率函数,定义了通过动作 𝑎 转换到状态 𝑠′ 后,观察到 𝑜′ ∈ Ω 的概率。
• 𝛾 ∈ [0, 1) 是折扣因子,用于平衡即时奖励和长期奖励。它仅适用于奖励为数字的情况。

这个公式捕捉现实世界场景的复杂性,其中智体在部分可观测的随机动态下运行。在时刻 𝑡,智体收到观测值 𝑜_𝑡 ∈ Ω 和目标 𝑔 ∈ 𝐺。它根据策略 𝜋(𝑎_𝑡 | 𝑜_𝑡, 𝑔) 选择动作 𝑎_𝑡 ∈ 𝐴。动作执行后,环境状态转换为 𝑠_𝑡+1 ∼𝑇(𝑠′ | 𝑠_𝑡, 𝑎_𝑡),从而产生观测值 𝑜_𝑡+1 ∼𝑂(𝑜′ | 𝑠_𝑡+1, 𝑎_𝑡) 和奖励 𝑅(𝑠_𝑡+1, 𝑎_𝑡, 𝑔)。

对于端到端决策,VLA 模型直接编码策略 𝜋(𝑎 | 𝑜, 𝑔),处理多模态观测 𝑜 ∈ Ω 并生成动作 𝑎 ∈ 𝐴。对于分层决策,高级智体通过 LLM 增强策略 𝜋_h𝑖𝑔h(𝑔_𝑠𝑢𝑏 | 𝑜, 𝑔) 生成上下文感知子目标 𝑔_𝑠𝑢𝑏,然后低级策略 𝜋_𝑙𝑜𝑤(𝑎 | 𝑜, 𝑔_𝑠𝑢𝑏) 将子目标映射到动作 𝑎 ∈𝐴。低级策略 𝜋_𝑙𝑜𝑤 (𝑎 | 𝑜, 𝑔_𝑠𝑢𝑏) 可以通过模仿学习或强化学习来掌握。学习的策略嵌入到模型的分层架构中,并在训练过程中进行微调,以处理特定任务,例如导航、操作、人机交互。

对于具身智能而言,模仿学习、强化学习、迁移学习和元学习都在使智体能够在复杂的现实环境中行动方面发挥着重要作用。每种学习方法都针对特定的挑战。模仿学习[204] 允许智体通过模拟专家或视频演示来学习有效的策略,这对于机器人操作等可以获得高质量数据的任务非常高效。但它对多样化演示的依赖限制其对新场景的适应性。强化学习[139] 通过在奖励函数引导下的反复试验,在动态环境中表现出色。

模仿学习

模仿学习是具身学习的关键方法。它使智体能够通过模仿专家的演示来学习策略,从而快速掌握面向目标任务的决策策略[204]。训练过程使用专家状态-动作对 (𝑠, 𝑎) 的数据集进行监督。目标是通过最小化专家行为的负对数似然来学习一个策略𝜋(𝑎 | 𝑠),使其能够紧密复制专家的行为。在连续动作空间中,策略𝜋(·)通常建模为高斯分布,目标函数用预测动作和专家动作之间的均方误差(MSE)来近似。模仿学习具有很高的样本效率,因为它避免了大量的反复试验,但它高度依赖于演示数据的质量和覆盖范围,在未知场景中难以应用。一种将模仿学习与强化学习相结合的混合方法可以解决这一局限性,即用模仿学习初始化策略,并用强化学习对其进行改进,从而增强对未知情况的鲁棒性。

强化学习

强化学习目前是具身学习的主导方法。它使智体能够通过反复试验与环境交互来学习策略,这使其非常适合动态和不确定的设置[139]。在每个时间步 𝑡,智体观察一个状态 𝑠,并根据其策略 𝜋(𝑎 | 𝑠) 选择一个动作 𝑎。动作执行后,智体从奖励函数 𝑅(𝑠, 𝑎, 𝑔) 获得奖励 𝑟,环境根据状态转换概率𝑇(𝑠′ | 𝑠, 𝑎) 转换到新的状态 𝑠′,得到观察值 𝑜′ ∼ 𝑂(𝑜′ | 𝑠′, 𝑎)。

强化学习擅长优化复杂任务的策略,但需要大量的探索,计算成本高昂。一种结合模仿学习和强化学习的混合方法可以改善这个问题。其中模仿学习提供初始策略以减少探索,而强化学习则通过与环境的交互来完善这些策略。

迁移学习

在从头开始训练需要大量样本和时间的情况下,可以应用迁移学习来减轻工作量[152]。它允许智体利用来自源任务的知识来加速相关目标任务的学习。通过迁移从源任务中学习到的策略、特征或表示,智体可以提高目标任务的效率和泛化能力。给定一个源任务,其状态-动作空间由状态 𝑠 ∈ 𝑆、动作 𝑎 ∈ 𝐴 和策略 𝜋(𝑎 | 𝑠) 定义,迁移学习会使源策略 𝜋_𝑠 适应具有不同动态或目标的目标任务。目标是通过使用少量目标任务数据对策略进行微调,最大限度地减少源策略 𝜋_𝑠 和目标策略 𝜋_𝑡 之间的差异。此过程确保迁移的知识与目标任务的状态转移概率𝑇(𝑠′ | 𝑠, 𝑎) 和奖励函数 𝑅(𝑠, 𝑎, 𝑔) 保持一致。在具身环境中,迁移学习使智体能够在不同的环境和目标中重用已学习的行为,从而缩短训练时间。然而,源任务和目标任务之间的显著差异可能导致负迁移,即由于知识不匹配而导致性能下降。

元学习

元学习也可用于具身人工智能,使智体能够学习如何学习[51, 66],从而能够从少量样本中快速推断出新任务的最优策略。在每个时间步 𝑡 ,智体会接收一个观测值 𝑜 ∈ Ω 和一个目标 𝑔,并根据元策略选择一个动作 𝑎 ,该元策略会适应由状态转换概率 𝑇(𝑠′ | 𝑠, 𝑎) 和奖励函数 𝑅(𝑠, 𝑎, 𝑔) 定义的特定任务动态。其目标是通过最小化特定任务的数据损失来优化跨任务的预期性能。在模型无关元学习 (MAML)[52] 的背景下,这可以通过学习一组初始模型参数 𝜃 来实现,这些参数可以通过最少的更新快速适应新任务。元学习可以通过少量演示或交互对预训练模型进行微调,使智体能够快速适应新任务。元策略可以嵌入大模型中,并在训练过程中进行优化,以处理各种任务。尽管元学习具有诸多优势,但它需要大量的预训练和跨任务的大量样本,这给建立通用的学习策略带来挑战,尤其是在任务的状态空间或动态变化很大的情况下。

如下表比较具身智能的学习方法:

请添加图片描述

大模型赋能的模仿学习

模仿学习的主要目标是使智体能够通过模仿演示者的动作来达到专家级的表现。模仿学习可以通过多种方法实现,包括行为克隆[53]、逆强化学习[135]、生成对抗模仿学习[79]和分层模仿学习[12],每种方法都有助于构建策略网络。在这些方法中,行为克隆是最重要的方法,它将模仿学习定义为一项监督回归任务。给定观测值 𝑜∈Ω 和目标𝑔∈𝐺,策略网络 𝜋 预测预期动作 𝑎∈𝐴。

策略网络 𝜋 需要准确地将观测值 𝑜 和目标 𝑔 映射到动作 𝑎,以确保即使在复杂、动态、部分可观测的环境中也能保持较高的模仿保真度。除了复制之外,模仿学习还致力于赋予智体泛化到未知状态、目标或环境的能力。泛化能力对于现实世界的应用至关重要,例如机器人操控、自主导航和人机交互,因为这些领域的环境动态和任务要求通常与训练场景存在偏差。此外,模仿学习旨在确保对分布偏移的鲁棒性,即动作预测中的小误差不会累积到导致与专家轨迹的显著偏差,尤其是在随机或动态环境中。最后,模仿学习力求提高样本效率,试图使智体能够从有限数量的专家演示中学习到有效的策略,从而减少对大量高质量数据集的依赖。

行为克隆仍然难以满足这些构建鲁棒策略的要求[204]。它对高质量专家演示的依赖阻碍了其对未知状态或目标的泛化。专家演示通常表现出随机性、多模态性和复杂性,这些特性对于策略网络来说难以捕捉,从而导致模仿保真度受损和性能下降。大模型的最新进展显著增强行为克隆,解决其固有的局限性。如图所示,大模型在以下几个方面增强模仿学习:(1)使用扩散模型构建策略网络;(2)使用 Transformer 构建策略网络。

请添加图片描述

基于扩散的策略网络

扩散模型擅长处理复杂的多模态分布[40]。它们可以用来生成多样化的动作轨迹,从而增强策略的鲁棒性和表达能力。最近的研究开始将扩散模型集成到策略网络中,以克服传统模仿学习的局限性。Pearce[142] 提出了一个基于扩散模型的模仿学习框架,将扩散模型集成到策略网络中。该框架通过噪声的添加和消除迭代优化专家演示,可以捕捉动作分布的多样性并生成多样化的动作序列。DABC[34] 采用两阶段流程,在扩散模型的赋能下训练策略网络。它首先通过行为克隆预训练基础策略网络,然后通过扩散模型细化动作分布的建模。扩散策略[36] 提出一种将扩散模型作为视觉驱动机器人任务决策模型的策略网络。它以视觉输入和机器人当前状态为条件,采用 U-Net 作为去噪网络,根据视觉特征和状态向量预测去噪步骤,从而生成连续的动作序列。为了增强策略网络的空间感知能力,3D-Diffusion[217] 提出了一种基于 3D 输入的扩散策略框架。它使用简单的 3D 表示作为输入,利用扩散模型生成动作序列,从而通过捕捉空间信息来提高视觉运动策略的泛化能力。与二维策略网络相比,3D-Diffusion 可以更好地理解三维环境中的几何关系和空间约束。

基于 Transformer 的策略网络

Transformer 架构可以将专家轨迹视为序列数据,并利用自注意机制来建模动作、状态和目标之间的依赖关系,从而增强模仿学习能力。这种端到端方法可以最大限度地减少中间步骤中的错误积累,从而提高策略的一致性和准确性。谷歌的 RT-1[20] 首次展示 Transformer 在机器人控制方面的潜力。通过将大规模、多样化的数据集(超过 13 万条轨迹,超过 700 个任务)与预训练的视觉语言模型相结合,它显著提高了对未知任务和场景的任务泛化能力。后续工作 RT-Trajectory[62] 引入了“轨迹草图”方法,结合低级视觉线索来增强端到端 Transformer 的任务泛化能力。斯坦福大学的 ALOHA [224] 利用 Transformers 的编解码结构,从多视角图像生成机械臂动作序列,以低成本硬件实现精准的双臂操作。其后续研究采用动作分块策略(即ACT)预测多步骤动作序列,显著提升长期任务的稳定性和一致性。移动 ALOHA [58] 将原有任务扩展至全身协调的移动操作任务,引入移动平台和遥操作接口,以处理更复杂的双臂任务。对于三维空间操作,HiveFormer[224] 和 RVT[60] 利用多视角数据和 CLIP 进行视觉-语言特征融合,直接预测 6D 抓取姿势,在 RLBench 和真实机械臂任务上取得了最佳性能,凸显了 Transformers 在复杂空间建模方面的优势。为了抓取可变形体(例如织物或软材料),人们提出一种结合视觉和触觉反馈的 Transformer 框架,通过探索性动作优化抓取参数。谷歌的 RoboCat[19] 采用跨任务、跨具身的具身模仿学习,集成 VQ-GAN[50] 对视觉输入进行token化,利用 Decision Transformer (DT)预测动作和观察结果,仅用少量样本即可实现快速的策略泛化。RoboAgent[17] 采用类似的编码-解码结构,融合视觉、任务描述和机器人状态,以最大限度地减少动作序列预测误差。CrossFormer[44] 提出了一种基于 Transformer 的跨具身任务模仿学习架构,该架构基于大规模专家数据进行训练,以统一操作、导航、移动和空中任务的处理,展现多任务学习的潜力。

大模型赋能强化学习

通过与环境的交互,强化学习[11]使智体能够制定最优控制策略,适应各种未知场景,在动态环境中保持鲁棒性,并从有限的数据中学习,从而能够在现实世界中完成复杂的任务。强化学习最初基于一些基础技术,例如策略搜索和价值函数优化,例如 Q 学习[194]和状态-动作-奖励-状态-动作(SARSA)[164]。随着深度学习的兴起,强化学习与深度神经网络相结合,被称为深度强化学习(DRL)。DRL使智体能够从高维输入中学习复杂的策略,并取得了显著的成就,例如 AlphaGo [174]和深度 Q 网络(DQN)[130]。DRL使智体能够在新环境中自主学习,无需明确的人工干预,从而广泛应用于游戏、机器人控制等领域。后续的进展进一步提升学习效果。近端策略优化 (PPO)[166] 通过截断概率比提高了策略优化的稳定性和效率。软 Actor- Critics (SAC)[68] 通过引入最大熵框架提高了探索性和鲁棒性。

尽管取得了这些进展,强化学习在构建策略网络 𝜋 和设计奖励函数 𝑅(𝑠,𝑎,𝑔) 方面仍然存在局限性。大模型的最新进展在以下方面增强了强化学习:(1)改进奖励函数设计;(2)通过建模复杂的动作分布来优化策略网络构建。如图所示。

请添加图片描述

奖励函数设计

由于强化学习[49]的复杂性和任务特定性,设计奖励函数一直是其面临的挑战。传统的奖励函数由领域专家手动设计,需要综合考虑任务完成情况、能耗、安全性以及各因素的权重等因素和专业知识,难度较大。手动设计通常会导致奖励稀疏或尺度不当,从而引发诸如奖励黑客攻击之类的问题,即智体会利用非预期信号来最大化奖励,而最终无法实现预期目标。

大模型通过生成 (1) 奖励信号 𝑟 或 (2) 奖励函数 𝑅(𝑠,𝑎,𝑔) 提供一种颇具前景的解决方案,从而减少对手动设计的依赖,并捕获复杂的多模态反馈。Kwon 提出的 Language to Rewards (L2R) [215] 分别引入零样本和少样本方法,利用 GPT-3 直接从文本行为提示生成奖励信号,将高级目标转化为特定于硬件的控制策略。然而,这些方法的稀疏奖励限制了其在复杂任务中的应用,并且成功的生成很大程度上依赖于精准的提示或特定的模板。 Text2Reward[205] 通过从环境描述和示例中生成密集的可解释 Python 奖励函数,并通过人工反馈迭代地完善这些函数,从而改进了这一方法,在机器人操作和运动任务中取得了很高的成功率。Eureka [120] 利用 GPT-4 从任务和环境提示中创建密集的奖励函数。它通过采用自动迭代策略进行奖励函数优化,减轻 Text2Reward 对人工反馈的依赖,从而超越了人工设计的奖励函数。此外,Auto MC-Reward[106] 通过多阶段流水线为游戏 Minecraft 实现了完全自动化,其中奖励设计器生成奖励信号,验证器确保质量,轨迹分析器通过故障驱动的迭代来完善奖励。Auto MC-Reward 显著提高效率,但与 Eureka 和 Text2Reward 相比,它专注于特定域,限制了其泛化能力。

策略网络构建

离线强化学习无需在线交互,即可从预先收集的数据集中学习[101]最优策略。但对静态数据集的依赖可能会导致数据集中缺失的动作出现错误。策略正则化可以通过限制与行为策略的偏差来缓解这一问题。但策略表达能力的局限性和次优的正则化方法可能会导致性能不佳。为了增强离线强化学习的表达能力和适应性,研究人员提出利用(1)扩散模型、(2)基于 Transformer 的架构和(3)LLM 来增强策略网络的构建,如图所示。

请添加图片描述

使用扩散模型构建策略网络。扩散模型[40] 通过迭代加噪和去噪来建模复杂的动作分布,从而增强策略表达能力。扩散 QL[193] 采用扩散模型作为基础策略,在 Q 学习框架内对动作分布进行建模和训练,以最大化价值函数目标。这种方法可以生成高奖励策略,使其能够拟合离线数据集中的多模态或非标准动作分布。然而,扩散模型需要大量的去噪步骤才能从完全噪声状态生成动作。为了减轻工作量,EDP[91] 引入一种高效的采样方法,只需一步即可从中间噪声状态重构动作,从而显著降低计算开销。EDP 可以与各种离线强化学习框架集成,在保持策略表达能力的同时提高采样效率。

基于 Transformer 架构的策略网络构建。基于 Transformer 的架构利用自注意机制捕捉轨迹中的长期依赖关系,从而提高策略的灵活性和准确性。决策 Transformer[31] 将离线强化学习重定义为条件序列建模问题,将状态-动作-奖励轨迹视为序列输入,并应用监督学习从离线数据集生成最优动作。在此基础上,Prompt-DT[207] 通过结合提示工程,使用带有任务特定编码的轨迹提示来指导新任务的动作生成,从而增强在小样本场景中的泛化能力。为了提高在动态环境中的适应性,在线决策 Transformer (ODT)[228] 通过离线强化学习对 Transformer 进行预训练,使其学习序列生成,然后通过在线强化学习交互对其进行微调。Q-Transformer[30] 将 Transformer 的序列建模与 Q 函数估计相结合,通过自回归学习 Q 值来生成最优动作。在多任务离线强化学习中,Gato[158] 采用基于 Transformer 的序列建模方法,但它严重依赖于数据集的最优性,并且由于参数较大而导致训练成本高昂。

使用 LLM 构建策略网络。LLM 基于 Transformer 的序列建模能力,引入一种新的范式,利用预训练知识来简化离线强化学习任务。 GLAM[28] 使用 LLM 作为策略智体,为语言定义的任务生成可执行的动作序列,并通过带有上下文记忆的 PPO 在线优化这些序列,以提高长期规划中的序列一致性。LaMo[169] 使用 GPT-2 作为基础策略,并使用 LoRA 进行微调以保留先验知识,将状态-动作-奖励序列转换为语言提示,以生成与任务一致的策略。Reid[159] 使用预训练的 BERT 探索 LLM 的可迁移性,BERT 针对特定任务进行了微调,并通过外部知识库进行了增强。在 D4RL 基准测试[57]上的评估表明,Reid 的表现优于 Decision Transformer,同时缩短了训练时间,证明了 LLM 在离线强化学习中的高效性。


世界模型充当环境的内部模拟或表征。借助世界模型,智能系统可以预测未来状态,理解因果关系,并做出合理的决策,而无需仅仅依赖现实世界的交互,因为后者成本高昂且通常不可行。世界模型提供了一个丰富的认知框架,有助于在复杂的动态环境中更高效地学习、决策和适应,从而增强智能体执行复杂任务的能力。

世界模型的设计

世界模型的概念可以追溯到强化学习[233]。传统的强化学习依赖于重复的智体与环境交互,计算成本高昂,因此在数据稀缺或复杂的场景中不切实际。世界模型并非仅仅通过重复交互来学习行为,而是使智体能够在模拟环境中学习。这种方法在数据稀缺或复杂的场景中尤其有价值。就设计而言,当前的世界模型可以分为四类:潜空间世界模型、基于Transformer的世界模型、基于扩散的世界模型和联合嵌入预测架构,如图的上半部分所示。

请添加图片描述

潜空间世界模型

潜空间世界模型以递归状态空间模型 (RSSM)[67, 69] 为代表,它有助于在潜空间中进行预测。RSSM 从像素观测中学习动态环境模型,并在编码的潜空间中规划动作。 RSSM 通过将潜状态分解为随机部分和确定性部分,同时考虑环境的确定性和随机性因素。由于 RSSM 在机器人连续控制任务中的出色表现,许多基于 RSSM 的研究应运而生。PlaNet[71] 将 RSSM 与门控循环单元 (GRU) 和卷积变分自编码器 (CVAE) 结合使用,利用 CNN 实现潜动态和模型预测控制。Dreamer[70] 通过从潜表征中学习执行者 (actor) 和价值网络 (value network) 对其进行了改进。Dreamer V2[72] 进一步使用执行者-评论家 (actor-critic) 算法,仅从世界模型生成的想象序列中学习行为,在 Atari 200M 基准测试中取得与人类玩家相当的性能。Dreamer V3[73] 通过符号对数预测、层归一化和基于指数移动平均的归一化回报增强稳定性,在连续控制任务中的表现优于专门的算法。

基于 Transformer 的世界模型

潜空间世界模型通常依赖于 CNN 或循环神经网络 (RNN),因此在高维、连续或多模态环境中运行时面临挑战。基于 Transformer 的世界模型提供一个强大的替代方案。它们利用注意机制对多模态输入进行建模,克服 CNN 和 RNN 的局限性,展现出卓越的性能,尤其是在复杂的记忆交互任务中。IRIS[129] 是首批将 Transformer 应用于世界模型的模型之一,其中智体在基于 Transformer 的自回归世界模型中学习技能。IRIS 使用矢量量化变分自编码器 (VQ-VAE) 对图像进行 token 化,并使用自回归 Transformer 预测未来的 token,在低层数据 Atari 100k 设置中表现出色。谷歌的 Genie[24] 基于时空 Transformer[206] 构建,并通过自监督学习在大量未标记的互联网视频数据集上进行训练,其性能优于传统的 RSSM。Genie 为可操作、生成式、交互式环境提供了一种新的范例,凸显了 Transformer 的变革潜力。TWM[162] 提出了一种基于 Transformer-XL 的世界模型。它将 Transformer-XL 的片段级递归机制迁移到世界模型,从而能够捕捉环境状态之间的长期依赖关系。为了进一步提高效率,TWM 在潜在想象中训练一个无模型智体,避免在运行时进行完全推理。STORM[222] 使用随机 Transformer,因此在 Atari 100k 基准测试中不依赖于前瞻搜索。它将状态和动作融合为一个 token,从而提高了训练效率,并与 Dreamer V3 在 Atari 100k 基准测试中的表现相当。这些基于 Transformer 的世界模型,将状态、动作和观察结果离散化为序列,利用自注意机制捕捉长期依赖关系,显著提高预测精度、样本效率和跨任务的适应性。

基于扩散的世界模型

以 OpenAI 的 Sora[22] 为代表的基于扩散的世界模型,在原始图像空间中生成预测视频序列方面取得了显著进展。与潜空间世界模型和基于 Transformer 的世界模型不同,Sora 利用编码网络将视频和图像转换为 token,然后使用大规模扩散模型对这些 token 进行加噪和去噪处理,最终将它们映射回原始图像空间,从而基于语言描述生成多步骤图像预测。这种能力使 Sora 非常适用于具身任务。例如,Sora 可以使用机器人任务描述和轨迹先验,为智体生成未来时间步长的轨迹视频,从而增强基于模型的强化学习。UniPi[47] 采用扩散模型在图像空间中建模智体轨迹,根据语言输入和初始图像生成未来的关键视频帧,然后进行时间序列的超分辨率处理,以创建一致、高质量的图像序列。UniSim[212] 通过在互联网数据和机器人交互视频上联合训练扩散模型,进一步改进了轨迹预测,从而能够预测高级和低级任务指令的长序列视频轨迹。

联合嵌入预测架构

上述数据驱动的世界模型在自然语言处理任务中表现出色,但由于依赖训练数据,缺乏现实世界的常识。由 Meta 的 Yann LeCun 提出的联合嵌入预测架构 (JEPA)[102] 是一种突破常识局限性的突破性方法。受人脑高效学习的启发,JEPA 在高级表示空间中引入分层规划和自监督学习。分层规划将复杂任务分解为多个抽象级别,每个级别处理特定的子任务,以简化决策和控制,并专注于语义特征,而非像传统生成模型那样关注像素级输出。通过自监督学习,JEPA 训练网络预测缺失或隐藏的输入数据,从而能够在大型未标记数据集上进行预训练,并针对各种任务进行微调。 JEPA 的架构包含感知模块和认知模块,形成一个世界模型,利用潜变量捕捉关键信息并过滤冗余信息,从而支持高效的决策和未来情景规划。JEPA 引入双-系统概念,在“快速”直觉反应与“缓慢”深思熟虑推理之间取得平衡。这种分层规划、自监督学习和强大的世界模型的结合,使 JEPA 成为一个可扩展的、受认知启发的框架,适用于复杂的现实世界环境。

决策中的世界模型

世界模型可以为智体提供强大的内部表征,使其能够在采取实际行动之前预测环境动态和潜结果。在决策过程中,世界模型主要发挥两个作用:(1) 模拟验证和 (2) 知识增强,如上图左下图所示。通过这些机制,世界模型可以显著提升智体在复杂动态环境中规划和执行任务的能力。

用于模拟验证的世界模型

在机器人技术领域,测试决策可能极其昂贵且耗时,尤其是在连续且长期的任务中,当前的决策会深刻影响未来的表现。世界模型可以通过启用模拟验证来缓解这一问题,允许智体“尝试”操作并观察可能产生的后果,而无需现实世界的承诺。这种模拟验证显著缩短迭代时间,并有助于安全地测试原本不切实际的极端情况或高风险场景。预测操作如何影响未来环境状态的能力有助于智体识别和避免潜在的错误,最终优化性能。NeBula[3] 使用贝叶斯过滤构建概率信念空间,使机器人能够在包括未知环境在内的各种结构配置中进行有效推理,从而提供一种预测不确定性结果的复杂方法。UniSim[212] 是一个用于现实世界交互的生成模拟器,可以模拟高级指令和低级控制的视觉结果。它包含一个统一的生成框架,将操作作为输入,集成不同调制方式下的多样化数据集。

用于知识增强的世界模型

为了成功完成现实世界的任务,智体通常需要丰富的知识和环境常识。世界模型可以为智体提供对策略规划至关重要的预测性和情境性知识。通过预测未来的环境状态或丰富智体对世界的理解,世界模型使智体能够预测结果、避免错误并随着时间的推移优化性能。世界知识模型 (WKM)[146] 通过在任务执行前提供全局先验知识,并在任务执行期间保持局部动态知识,模仿人类的心理世界知识。它综合了来自专家和采样轨迹的全局任务知识和局部状态知识,与 LLM 集成时可实现卓越的规划性能。Agent-Pro[221] 将智体与其环境(尤其是在交互任务中与其他智体)的交互转化为“信念”。这些信念代表了智体对环境的社会理解,并为后续决策和行为策略更新提供信息。GovSim[144] 探索了 LLM 智体社会中合作行为的出现。这些智体通过多智体对话收集有关外部世界和其他智体策略的信息,隐性地形成他们自己对世界模型的高级见解和表征。

具身学习中的世界模型

除了决策之外,世界模型还能帮助智体高效地学习新技能和新行为。与无模型强化学习不同,无模型强化学习通常会因智体与环境的直接交互而产生高昂的计算成本和低数据效率。基于模型的强化学习利用世界模型,通过(1)模拟状态转换和(2)生成数据来简化学习过程,如上图右下侧所示。

用于状态转换的世界模型

传统的强化学习是无模型的,直接从智体与环境的交互中学习,这需要大量计算,在数据稀缺或复杂场景中不切实际。基于模型的强化学习利用明确捕捉状态转换和动态的世界模型来缓解这些限制,使智体能够从模拟环境中增强其学习过程,从而实现安全、经济高效且数据高效的训练。世界模型创建了现实世界的虚拟表示,因此智体可以探索假设动作并改进策略,而无需承担与现实世界交互相关的固有风险或成本。 RobotDreamPolicy[145] 学习一个世界模型并在其中开发策略,从而大幅减少与现实环境的交互。DayDreamer[202] 利用基于 RSSM 的世界模型 Dreamer V2,将观测值编码为潜状态并预测未来状态,从而在真实机器人中实现快速的技能学习,并具有很高的采样效率。SWIM[128] 更进一步,利用互联网规模的人类视频数据来理解丰富的人类交互并获得有意义的 affordance。它首先在一个以自我为中心的大型数据集上进行训练,然后使用机器人数据进行微调,以适应机器人领域。随后,可以使用这个世界模型高效地学习特定任务的行为。

用于数据生成的世界模型

除了增强学习和优化策略之外,世界模型(尤其是基于扩散的世界模型)还可用于合成数据,这对于具身人工智能尤其有价值,因为收集多样化且广泛的现实世界数据具有挑战性。基于扩散的世界模型可以合成真实的轨迹数据、状态表征和动态,从而扩充现有数据集或创建全新的数据集,以增强学习过程。SynthER[118] 利用基于扩散的世界模型生成低维离线强化学习轨迹数据,以扩充原始数据集。评估结果表明,扩散模型可以有效地从轨迹数据中学习状态表征和动力学方程。MTDiff[77] 应用基于扩散的世界模型生成多任务轨迹,以专家轨迹为提示,指导生成符合特定任务目标和动态的智体轨迹。VPDD[76] 使用大规模人类操作数据集训练轨迹预测世界模型,然后仅使用少量带标签的动作数据对动作生成模块进行微调,从而显著减少了策略学习对大量机器人交互数据的需求。


挑战

缺乏具身数据
持续学习
计算和部署效率
sim-2-real 间距

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐