25年9月来自香港科大、北京微软研究院、武汉大学、中科院大学、清华大学、西工大和中南大学的论文“Beyond Human Demonstrations: Diffusion-Based Reinforcement Learning to Generate Data for VLA Training”。

视觉-语言-动作 (VLA) 模型在各种任务和具体实现中展现出强大的泛化能力;然而,由于手动数据收集的成本和工作量,它们对大规模人工演示的依赖限制了其可扩展性。强化学习 (RL) 提供了一种自主生成演示的潜在替代方案,但传统的 RL 算法在稀疏奖励的长时程操作任务中往往举步维艰。本文提出一种改进的扩散策略优化算法,用于生成高质量、低方差的轨迹,这有助于构建基于扩散 RL 的 VLA 训练流程。该算法不仅受益于扩散模型的高表达能力,能够探索复杂多样的行为,还受益于迭代去噪过程的隐式正则化,从而产生平滑一致的演示。
在包含 130 个长时程操作任务的 LIBERO 基准测试中评估方法,结果表明,生成的轨迹比人工演示和标准高斯 RL 策略生成的轨迹更平滑、更一致。此外,仅使用扩散强化学习生成的数据训练 VLA 模型,平均成功率可达 81.9%,比使用人类数据训练的模型高出 5.3%,比使用高斯强化学习生成的数据训练的模型高出 12.6%。结果表明,扩散强化学习是 VLA 模型生成丰富、高质量、低方差演示的有效替代方案。


VLA 模型的数据生成

虽然许多近期的 VLA 模型展现出了令人印象深刻的能力,但它们的性能通常依赖于大规模数据集的可用性。诸如 Open X-Embodiment [4] 和 LIBERO [6] 之类的开源数据集为该领域提供了坚实的基础,其中大部分数据是通过人类遥操作收集的。一个关键的挑战是,扩展此数据收集过程需要大量的人力。另一方面,一些基于模型的方法通过求解优化问题 [8] 来生成操作任务的轨迹,但这通常需要精心的、针对特定任务的算法设计。为了寻求一种更具可扩展性和自主性的方法,本文探索使用强化学习 (RL) 进行数据生成。强化学习能够通过在线交互发现近乎最优的行为,这为生成高质量数据提供了一条充满希望的途径。

机器人基础模型中的强化学习

最近的研究已经开始探索如何应用强化学习算法来增强机器人基础模型。一个关键挑战是如何在具有稀疏奖励的长远机器人任务中有效地训练 RL 智体。为了克服这一挑战,研究人员将 RL 与不同的策略结合起来,例如利用基础先验 [9]、通过蒸馏改进策略 [10]、利用人-在-环 [11]、离线训练 [12] 或交互式 RL 方法 [13]。另一项研究采用 RL 直接微调大视觉语言主干网络,证明决策能力的提升 [14]-[17]。然而,由于 RL 的样本效率低下,通过在线 RL 直接微调 VLA 的计算成本很高。因此,另一条有前途的途径是将 RL 用作可扩展数据生成的工具。例如,Liu [18] 和Xu [19] 的研究表明,强化学习生成的轨迹可以减少人类演示中常见的噪声和不一致性。这为 VLA 训练提供了高质量的监督信号,并且可以轻松地与其他数据源(例如精选的人工收集数据 [20] 和世界模型生成的数据 [21])结合,并集成到标准的 VLA 训练流程中。在此基础上,本文方法引入一种改进的基于扩散强化学习算法,该算法可以稳健地生成高质量、低方差的轨迹,为训练机器人基础模型提供一种可扩展的替代/补充方案,以取代人工收集的数据。


目标是开发一个精心设计的流程,通过 RL 生成高质量的合成数据来训练 VLA 模型,从而减少对昂贵且不一致的人工演示的依赖。这个端到端流程涉及三个关键阶段:(1)训练专家 RL 策略,其中用 BC 热启动和在线 RL 微调的两阶段范例来为每个任务训练基于扩散的专家策略。(2)生成合成数据集,其中部署融合的专家策略来自主收集最佳轨迹的数据集。(3)训练通用 VLA 模型,其中该合成数据集用于微调通用 VLA 模型。该方法的核心是使用条件扩散模型作为策略架构,它非常适合克服每个阶段存在的不同挑战。流程图如图所示。

请添加图片描述

准备工作:用于操作的扩散策略

由于视野较长且奖励稀疏,将原始强化学习 (Vanilla RL) 直接应用于复杂的操作任务颇具挑战性。一种常见的缓解策略是使用少量人类演示进行策略热启动。然而,人类演示本质上是多模态的,反映了同一任务的多种操作策略 [22]。假设单模态高斯分布的标准策略难以从此类数据中学习,通常会对不同模态进行平均,导致强化学习微调的起点不佳。为了有效地捕捉这些丰富的知识用于下一阶段的强化学习,利用扩散策略的强大表达能力。

阶段 1:多模态行为克隆作为热启动

具体而言,扩散策略 π_θ 通过学习逆扩散过程来建模动作块 a_0 上的分布,该扩散过程会在 K 个步骤中逐渐用高斯噪声破坏动作。该模型的核心是一个神经网络 ε_θ(a_k, s_t, k),它预测添加到干净动作 a_0 的噪声,从而在 k 步生成一个带噪声的动作 a_k,该动作以状态 s_t 为条件。动作的生成过程如下:从纯噪声 a_K ∼ N (0, I) 开始,迭代应用学习的去噪函数,生成干净的动作 a_0。在阶段 1,训练扩散策略来模拟一些多模态人类演示 D_human。噪声预测网络 ε_θ 使用简化目标函数 L_BC(θ) [23] 进行优化。优化使策略能够捕捉人类行为复杂的多模态分布,为后续的强化学习阶段提供高质量的起点。

阶段 2:基于 PPO 的在线强化学习

在阶段 2,用在线强化学习训练预热策略,以最大化预期累积奖励。一个关键挑战是,π_θ (a_0 |s_t ) 对于扩散策略而言难以处理。因此,借鉴近期研究 [24]、[25]、[22] 中的见解,将去噪过程视为决策的子轨迹。这能够利用易于处理的单步转移似然函数 p_θ(a_k−1|a_k, s_t),应用类似 PPO 的策略梯度方法。

价值网络 V_φ(s) 的训练目标是最小化时间差分误差 L_Value(φ),其中 Rˆ_t 是目标值,通常使用广义优势估计 (GAE) [26] 计算得出。
扩散策略 π_θ 通过最大化 PPO-clip 目标函数进行更新 [27]。梯度是根据环境交互 L_Policy(θ) 中每个动作生成的一系列去噪步骤计算,其中 Aˆ_t 是来自critic 的优势估计,r_t,k(θ) 是单个去噪步骤的似然比。

增强强化学习过程的稳定性

直接使用扩散策略优化公式的目标函数会带来巨大的稳定性挑战。为了使该过程实用且稳健,提出对流程中的架构、采样策略和训练方案进行关键修改的建议。

  1. 针对样本效率和稳定性的架构设计:虽然一些先前的研究 [25] 使用 Vision Transformer (ViT) 和 MLP 架构,但实证研究表明,这种组合对于 LIBERO 的双重挑战而言:基于有限的多模态人类数据监督学习和针对长视域任务的强化学习,并非最优。ResNet 主干网络搭配 U-Net 解码器是一个更优的解决方案。ResNet 强大的归纳偏差在低数据量环境下能够实现更高的采样效率,而 U-Net 对于有效建模人类演示的多模态特性至关重要,能够在简单的多层感知器 (MLP) 失效的情况下提供稳健的热启动。进一步增强该架构,通过 FiLM 机制整合本体感受状态信息,从而在强化学习更新期间获得更稳定的条件信号。

  2. 使用优化的调度器进行高效的动作采样:扩散强化学习的一个显著瓶颈是标准去噪扩散概率模型 (DDPM) 采样器 [23] 的缓慢迭代特性。它计算成本高昂,并且会在采样动作中引入高方差,从而破坏评价器更新的稳定性。为了解决这个问题,改用速度更快、确定性的去噪扩散隐式模型 (DDIM) 采样器 [28]。在强化学习过程中,仅使用 5 个去噪步骤来生成每个动作。这可以实现更稳定可靠的策略梯度,加快数据收集速度,并降低动作方差。

  3. 稳定探索的训练方案:微调高容量扩散策略需要在保留从 BC 中学习的丰富先验知识和探索潜动作之间取得谨慎的平衡。为此,探索一套更有效的训练方案:
    • 退火学习率:采用余弦退火学习率方案 [29]。它从较大的学习率开始,以鼓励在初始人类演示之外进行探索,然后逐渐衰减以稳定收敛并保留从 BC 阶段学习的强大先验知识。
    • 多样化经验回放以防止模式崩溃:在微调过程中,训练稳定性的一个关键因素是确保每次 PPO 迭代都有足够大且多样化的经验批次。这对于高容量扩散策略尤为重要。由于其表达能力强,如果基于一小批相关数据(例如,来自相似轨迹的数据)更新策略,它可能会很快因这些轨迹内的偏差而过拟合。这会导致其学习的多模态分布崩溃,变成单一但次优的行为。崩溃的策略会在后续迭代中用于展开(rollout),并产生可能导致性能下降的恶意样本。利用大量并行环境来高效地填充重放缓冲区,而不会牺牲训练速度。

如图所示:扩散强化学习方法为 VLA 训练生成更优的数据分布。该图对比三种生成的轨迹。(a)人类的演示虽然成功,但却不一致,并表现出高方差、多模态行为;(b)传统的高斯强化学习策略会产生不稳定、次优的轨迹,导致任务成功率低;(c)相比之下,本文方法始终如一地生成高质量、低方差的轨迹,这些轨迹既平滑又最优;(d)这种卓越的数据质量直接转化为下游性能,因为在数据上训练的 VLA 模型明显优于在其他数据上训练的模型。
请添加图片描述

基于生成数据的 VLA 训练

收敛后,利用专家扩散强化学习策略生成合成数据集 D_RL = {(o_t, a_t, l)_i}。然后,通过最小化通用行为克隆目标来训练 VLA 模型 Π_VLA。这通过最大化数据集中专家行为的对数似然来实现,这相当于最小化一个负对数似然损失 L_VLA。这个具有通用性,适用于不同的策略架构。对于具有连续动作空间(例如π0 [30])的策略,此目标通常通过最小化预测动作与目标动作之间的均方误差来实现,或者通过优化扩散模型的噪声预测损失。用此过程来微调预训练的 VLA 架构,通过保持所有 VLA 训练超参相同来确保在不同数据源之间进行公平比较。

如图所示扩散强化学习框架概览。(左上)策略网络架构通过 ResNet 主干网络和 FiLM 条件整合本体感受和视觉观察,以参数化去噪过程。(右上)策略网络通过迭代扩散去噪对动作进行采样,而价值网络则估算这些动作的价值,以指导策略网络的更新。(下)训练循环在并行环境部署中执行基于扩散的动作采样,收集任务完成奖励以更新网络并提升策略性能。

请添加图片描述

实验设置

a) LIBERO 基准:在综合 LIBERO 基准 [6] 上验证方法。LIBERO 基准包含 130 个操作任务,旨在研究知识迁移。LIBERO 对强化学习算法而言极具挑战性,主要原因有二。首先,它的任务通常具有长周期且奖励稀疏的特点,要求智体在收到任何成功信号之前执行长序列的操作,这使得探索变得困难。其次,它需要迁移陈述性知识(例如,在 LIBERO-Object 中识别新目标)和程序性知识(例如,在 LIBERO-Goal 中学习新行为),这是一个巨大的挑战。该基准分为 LIBERO-Spatial、LIBERO-Object、LIBERO-Goal 以及大规模 LIBERO-100(由 LIBERO-90 和 LIBERO-Long 组成),以便进行泛化能力的可控研究。

如图所示LIBERO 基准测试概述,该基准测试包含 130 个机器人操作任务。它包含针对不同挑战的子集:不同布局(LIBERO-Spatial)、目标(LIBERO-Goal)、物体(LIBERO-Object)、长视界任务(LIBERO-Long)和多样化场景(LIBERO-90)。这些套件为各种操作技能的基准测试提供了一个全面的测试平台。
请添加图片描述

b) 用于比较的数据生成方法:为了评估生成数据的质量,比较在四个不同数据集上训练的 VLA 模型:
• 人类数据:LIBERO [6] 提供的原始数据集,包含每个任务 50 个人类遥控演示。
• 高斯强化学习数据:遵循该领域的先行研究 [19],利用高斯强化学习智体生成合成轨迹,用于与人类收集的数据进行比较或增强,确保与既定实践保持一致。遵循标准 PPO,并使用与主智体相同的架构和训练程序。
• 扩散强化学习数据(本文方法):由融合的、稳定的扩散强化学习智体生成的每个任务 50 条轨迹的数据集。
• 人类+强化学习数据:结合人类和扩散强化学习数据的混合数据集,专门用于 OOD 分析。
遵循 Open-VLA [20] 中提到的数据预处理,以保持对这些基线的公平比较。

c) 评估协议:主要指标是任务成功率,每个任务套件平均超过 50 个评估片段。在每次试验中,每个任务都随机初始化不同的状态,包括目标位置的变化和周围物体的位置。对于 OOD 评估,模型仅在 LIBERO-90 套件上进行训练,然后在其他套件中未见过的任务上进行零样本评估。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐