元强化学习经典方法:RL²、MAML-RL、MAESN、PEARL、VariBAD
本文将系统梳理2016-2020年间五个具有里程碑意义的元强化学习(Meta-RL)研究工作:RL²、MAML-RL、MAESN、PEARL和variBAD。这些工作共同解决的核心问题是:如何让智能体利用以往任务的经验,在新任务中通过极少的环境交互就能快速学习?
用一个具体例子说明:想象一个机器人在不同房间中寻找目标物体。每个房间布局不同(墙的位置、目标位置变化),但共享"移动-观察-发现"的底层结构。传统RL每个房间都要从头探索数千次;而Meta-RL希望机器人在经历100个训练房间后,进入第101个新房间时,仅用几次尝试就能找到目标。关键在于,机器人必须学会如何探索(往哪走能最快获取信息)和如何适应(根据新信息调整策略)。
不同算法实现这一目标的路径截然不同:MAML会寻找一个"万能"初始策略,RL²依赖记忆隐含推断房间特征,PEARL通过离线数据预判房间类型,MAESN主动探索房间结构,VariBAD则系统性地降低对房间布局的不确定性。
这五篇论文代表了三种技术路线:
- 基于记忆的黑盒方法(RL²):用RNN隐式学习学习算法
- 基于优化的元学习(MAML-RL、MAESN):学习易微调的参数初始化
- 基于概率推断的方法(PEARL、variBAD):显式建模任务不确定性,进行贝叶斯式探索
下面我们将深入剖析每类方法的研究动机、技术细节与演进逻辑。
文章目录
一、研究背景:深度强化学习的样本效率困境
1.1 问题根源
传统深度强化学习(Deep RL)虽然在Atari、机器人控制等领域取得突破,但样本效率极低。例如,DQN学习一个Atari游戏需要数千万帧画面(约40天连续游戏),而人类仅需2小时。根本原因在于:
- 缺乏先验知识:神经网络从零开始构建世界模型,每个任务都重复学习"重力存在"、"物体持久性"等通用规律
- 探索效率低下:ε-greedy等随机探索在高维空间中如同"布朗运动",难以系统性收集信息
- 知识隔离:学习第N个任务时,前N-1个任务的经验被完全丢弃
1.2 元学习的提出
元学习(Meta-Learning)或"学会学习"(Learning to Learn)试图将学习过程本身作为优化对象。类比于人类学习:我们不仅积累知识,更积累学习策略——知道如何分配注意力、何时探索何时利用、如何类比迁移。
在RL中,Meta-RL形式化为双层优化:
- 内层(Fast):在新任务中快速学习(如5-10个episode)
- 外层(Slow):跨任务学习如何学习(可能需要10⁶-10⁸步环境交互)
二、RL²:将学习算法编码为RNN动态
RL^2: Fast Reinforcement Learning via Slow Reinforcement Learning, arXiv:1611.02779
2.1 研究动机与核心思想
RL²(Fast Reinforcement Learning via Slow Reinforcement Learning, Duan et al., 2016)开创性地提出:将"学习算法"表示为循环神经网络(RNN)的权重复用机制。
关键洞察:任何RL算法的执行过程都可以视为一个计算图,其内部状态(Q值估计、计数器、后验分布)随时间更新。RNN的隐藏状态 h t h_t ht天然适合存储这种计算状态。因此,RNN的前向传播就相当于执行一个学习算法。
2.2 问题形式化
考虑任务分布 ρ ( M ) \rho(\mathcal{M}) ρ(M),每个任务是一个MDP M i ∼ ρ ( M ) M_i \sim \rho(\mathcal{M}) Mi∼ρ(M)。交互过程定义为试验(Trial):在固定MDP上连续执行 n n n个episodes,隐藏状态在episode间保持,但在不同trial间重置。
核心公式:Meta-MDP构造
s t + = ( s t , a t − 1 , r t − 1 , d t − 1 ) (增强状态) h t + 1 = RNN ϕ ( s t + , h t ) (算法状态更新) π ( a t ∣ s t + , h t ) = Softmax ( W ⋅ h t ) (策略输出) \begin{aligned} s_t^+ &= (s_t, a_{t-1}, r_{t-1}, d_{t-1}) \quad \text{(增强状态)} \\ h_{t+1} &= \text{RNN}_\phi(s_t^+, h_t) \quad \text{(算法状态更新)} \\ \pi(a_t|s_t^+, h_t) &= \text{Softmax}(W \cdot h_t) \quad \text{(策略输出)} \end{aligned} st+ht+1π(at∣st+,ht)=(st,at−1,rt−1,dt−1)(增强状态)=RNNϕ(st+,ht)(算法状态更新)=Softmax(W⋅ht)(策略输出)
其中 d t − 1 d_{t-1} dt−1是终止标志。RNN接收所有RL算法本应接收的信息,其激活值存储"快速"RL算法在当前MDP上的状态。
目标函数:
max ϕ E M ∼ ρ ( M ) [ E π ϕ [ ∑ k = 1 n ∑ t = 0 T − 1 γ t r t ( k ) ] ] \max_\phi \mathbb{E}_{M \sim \rho(\mathcal{M})} \left[ \mathbb{E}_{\pi_\phi} \left[ \sum_{k=1}^n \sum_{t=0}^{T-1} \gamma^t r_t^{(k)} \right] \right] ϕmaxEM∼ρ(M)[Eπϕ[k=1∑nt=0∑T−1γtrt(k)]]
即在trial级别最大化总折扣回报,迫使RNN学会跨episodes整合信息。
2.3 技术细节
网络架构:使用GRU单元处理梯度消失/爆炸问题。输入嵌入函数 ϕ ( s , a , r , d ) \phi(s,a,r,d) ϕ(s,a,r,d)将不同模态映射到统一空间。
训练方法:采用TRPO(Trust Region Policy Optimization)进行外层优化,因其对超参数不敏感且样本效率较高。内层无需显式梯度,RNN动态自动处理适应过程。
关键实现技巧:在trial的第一个时刻,由于没有前一动作/奖励,使用占位符值(如动作0的embedding)。
2.4 探索机制分析
RL²的探索与利用由RNN动力学自然耦合。理论上,若RNN能完美推断任务,后期episode会直接执行最优策略。但实践中面临严重样本效率问题:
- 学习负担:RNN需同时学会"如何探索"和"如何推断任务",这两个目标在梯度信号上可能冲突。在大量交互后,网络可能过度拟合训练任务,对新任务产生灾难性遗忘。
- 无理论保证:难以量化探索的最优性,调参依赖经验。
三、MAML-RL:学习易微调的参数初始化
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks, 2017 ICML
3.1 与RL²的差异与动机
MAML(Model-Agnostic Meta-Learning, Finn et al., 2017)不依赖RNN的"黑盒"记忆,而是显式优化参数初始值,使得一次或几次梯度更新就能快速适应新任务。
动机:RNN-based方法存在三个缺陷:
- 容量限制:RNN必须同时编码探索策略和任务识别,容量可能不足
- 可解释性差:难以知道RNN存储了何种知识
- 优化困难:长序列BPTT导致梯度问题
MAML的思想更简单优雅:找到参数空间中的一个点 θ \theta θ,使得对任何新任务 T i T_i Ti,从 θ \theta θ出发沿梯度 ∇ θ L T i \nabla_\theta \mathcal{L}_{T_i} ∇θLTi移动一小步,就能到达该任务的近似最优解 θ i ∗ \theta_i^* θi∗。
3.2 核心算法与公式推导
双层优化目标:
min θ E T i ∼ p ( T ) [ L T i ( θ i ′ ) ] , 其中 θ i ′ = θ − α ∇ θ L T i ( θ ) \min_\theta \mathbb{E}_{T_i \sim p(T)} \left[ \mathcal{L}_{T_i} \left( \theta_i' \right) \right], \quad \text{其中} \quad \theta_i' = \theta - \alpha \nabla_\theta \mathcal{L}_{T_i}(\theta) θminETi∼p(T)[LTi(θi′)],其中θi′=θ−α∇θLTi(θ)
- θ \theta θ 是待学习的元参数(如神经网络权重)
- α \alpha α 是内层学习率(固定超参数)
- L i ( ⋅ ) \mathcal{L}_i(\cdot) Li(⋅) 是任务 T i \mathcal{T}_i Ti 的损失函数(RL中通常为负累积回报)
推导过程:
-
内层(Fast adaptation):对采样任务 T i T_i Ti,用 K K K个样本计算损失梯度,执行一步梯度下降:
θ i ′ = θ − α ∇ θ L T i ( θ ) \theta_i' = \theta - \alpha \nabla_\theta \mathcal{L}_{T_i}(\theta) θi′=θ−α∇θLTi(θ)
这对应于新任务上的快速学习过程。 -
外层(Meta-optimization):在更新后的参数 θ i ′ \theta_i' θi′上评估性能,计算元梯度:
∇ θ L T i ( θ i ′ ) = ∇ θ L T i ( θ − α ∇ θ L T i ( θ ) ) \nabla_\theta \mathcal{L}_{T_i}(\theta_i') = \nabla_\theta \mathcal{L}_{T_i}(\theta - \alpha \nabla_\theta \mathcal{L}_{T_i}(\theta)) ∇θLTi(θi′)=∇θLTi(θ−α∇θLTi(θ))
这涉及二阶导数(Hessian-vector product),通过两次反向传播实现。 -
参数更新:
θ ← θ − β ∇ θ E T i [ L T i ( θ i ′ ) ] \theta \leftarrow \theta - \beta \nabla_\theta \mathbb{E}_{T_i}[\mathcal{L}_{T_i}(\theta_i')] θ←θ−β∇θETi[LTi(θi′)]
RL场景下的损失函数:
L T i ( θ ) = − E π θ , T i [ ∑ t = 0 H − 1 γ t r t ] \mathcal{L}_{T_i}(\theta) = -\mathbb{E}_{\pi_\theta, T_i} \left[ \sum_{t=0}^{H-1} \gamma^t r_t \right] LTi(θ)=−Eπθ,Ti[t=0∑H−1γtrt]
即负的期望回报,使用策略梯度REINFORCE估计。
3.3 技术细节
策略梯度近似:由于环境动态未知,梯度通过REINFORCE估计:
∇ θ L T i ( θ ) ≈ − 1 N ∑ n = 1 N ( ∑ t = 0 H − 1 ∇ θ log π θ ( a t ∣ s t ) ⋅ ( ∑ t ′ = t H − 1 γ t ′ − t r t ′ ) ) \nabla_\theta \mathcal{L}_{T_i}(\theta) \approx -\frac{1}{N} \sum_{n=1}^N \left( \sum_{t=0}^{H-1} \nabla_\theta \log \pi_\theta(a_t|s_t) \cdot \left( \sum_{t'=t}^{H-1} \gamma^{t'-t} r_{t'} \right) \right) ∇θLTi(θ)≈−N1n=1∑N(t=0∑H−1∇θlogπθ(at∣st)⋅(t′=t∑H−1γt′−trt′))
实现优化:实验发现用一阶近似(忽略二阶导数)性能几乎无损,因为ReLU网络局部近似线性,二阶项接近零。这带来33%速度提升。
具体的,采用如下的一阶近似(忽略二阶项)。
∇ θ L T i ( θ i ′ ) = ∇ θ L T i ( θ − α ∇ θ L T i ( θ ) ) \nabla_\theta \mathcal{L}_{\mathcal{T}_i}(\theta_i') = \nabla_\theta \mathcal{L}_{\mathcal{T}_i}(\theta - \alpha \nabla_\theta \mathcal{L}_{\mathcal{T}_i}(\theta)) ∇θLTi(θi′)=∇θLTi(θ−α∇θLTi(θ))
应用链式法则:
∂ L ( θ i ′ ) ∂ θ j = ∑ k ∂ L ( θ i ′ ) ∂ ϕ i , k ∂ θ i , k ′ ∂ θ j \frac{\partial \mathcal{L}(\theta_i')}{\partial \theta_j} = \sum_k \frac{\partial \mathcal{L}(\theta_i')}{\partial \phi_{i,k}} \frac{\partial \theta_{i,k}'}{\partial \theta_j} ∂θj∂L(θi′)=k∑∂ϕi,k∂L(θi′)∂θj∂θi,k′
其中 θ i , k ′ = θ k − α ∂ L T i ∂ θ k \theta_{i,k}' = \theta_k - \alpha \frac{\partial \mathcal{L}_{\mathcal{T}_i}}{\partial \theta_k} θi,k′=θk−α∂θk∂LTi
3.4 探索机制分析
MAML的探索是隐式的,完全依赖策略的随机性(如高斯策略的噪声 ϵ ∼ N ( 0 , σ 2 ) \epsilon \sim \mathcal{N}(0, \sigma^2) ϵ∼N(0,σ2))。这种机制在两个层面存在局限:
-
适应阶段探索不足:当奖励稀疏时,随机探索难以在有限步数内发现有效信号。例如在迷宫任务中,若目标隐藏在远处角落,仅靠高斯噪声可能需要指数级步数才能偶然到达。
-
元训练阶段无探索激励:外层优化目标仅关注适应后的性能,不鼓励初始策略具有主动探索能力。这导致学习的初始参数可能陷入局部最优,仅对"容易"任务有效。
四、MAESN:学习结构化探索策略
Meta-Reinforcement Learning of Structured Exploration Strategies, 2018 NeurIPS
4.1 动机:RNN与MAML的探索缺陷
RL²的问题:RNN必须同时编码探索和利用两种截然不同的行为模式,导致探索策略缺乏结构性,接近随机游走。
MAML的问题:策略的随机性仅来自动作空间的时不变高斯噪声,每步独立采样,无法进行时间连贯的结构性探索(如"持续向左探索")。
MAESN(Meta-Reinforcement Learning of Structured Exploration Strategies, Gupta et al., 2018)提出:在MAML基础上引入元学习的潜在空间,注入时间相关的结构化噪声。其核心突破在于显式地将任务相关的结构化随机性注入策略,解决MAML等方法探索行为缺乏时序一致性的问题。其关键洞察是:有效探索需要在episode层面随机选择"探索模式",而非每步独立加噪。
4.2 核心方法:潜在变量策略
策略表示:
π θ ( a t ∣ s t , z ) , z ∼ N ( μ , σ ) \pi_\theta(a_t | s_t, z), \quad z \sim \mathcal{N}(\mu, \sigma) πθ(at∣st,z),z∼N(μ,σ)
其中 z z z是每episode采样一次的潜在变量,提供时间连贯的随机性。 μ , σ \mu, \sigma μ,σ是任务特定的变分参数。
元训练目标:
max θ , { μ i , σ i } ∑ i E π θ i ′ , z i ′ ∼ N ( μ i ′ , σ i ′ ) [ ∑ t R i ( s t ) ] − ∑ i β D K L ( N ( μ i , σ i ) ∥ N ( 0 , I ) ) s.t. μ i ′ = μ i + α μ ∇ μ i L i ( θ , μ i , σ i ) σ i ′ = σ i + α σ ∇ σ i L i ( θ , μ i , σ i ) θ i ′ = θ + α θ ∇ θ L i ( θ , μ i , σ i ) (可选) L i ( θ , μ i , σ i ) = E z i ∼ N ( μ i , σ i ) , π θ [ ∑ t R i ( s t ) ] \begin{aligned} \max_{\theta, \{\mu_i,\sigma_i\}} & \sum_i \mathbb{E}_{\pi_{\theta_i'}, z_i' \sim \mathcal{N}(\mu_i', \sigma_i')} \left[ \sum_t R_i(s_t) \right] - \sum_i\beta D_{KL}(\mathcal{N}(\mu_i, \sigma_i) \| \mathcal{N}(0, I)) \\ \text{s.t.} \quad & \mu_i' = \mu_i + \alpha_\mu \nabla_{\mu_i} \mathcal{L}_i(\theta, \mu_i, \sigma_i) \\ & \sigma_i' = \sigma_i + \alpha_\sigma \nabla_{\sigma_i} \mathcal{L}_i(\theta, \mu_i, \sigma_i) \\ & \theta_i' = \theta + \alpha_\theta \nabla_\theta \mathcal{L}_i(\theta, \mu_i, \sigma_i) \quad \text{(可选)} \\ & \mathcal{L}_i(\theta, \mu_i, \sigma_i) = \mathbb{E}_{z_i \sim \mathcal{N}(\mu_i, \sigma_i), \pi_\theta} \left[ \sum_t R_i(s_t) \right] \end{aligned} θ,{μi,σi}maxs.t.i∑Eπθi′,zi′∼N(μi′,σi′)[t∑Ri(st)]−i∑βDKL(N(μi,σi)∥N(0,I))μi′=μi+αμ∇μiLi(θ,μi,σi)σi′=σi+ασ∇σiLi(θ,μi,σi)θi′=θ+αθ∇θLi(θ,μi,σi)(可选)Li(θ,μi,σi)=Ezi∼N(μi,σi),πθ[t∑Ri(st)]
推导与解释:
- 内层更新:对每个任务 T i T_i Ti,维护独立的变分参数 ( μ i , σ i ) (\mu_i, \sigma_i) (μi,σi)。在变分参数 ( μ i , σ i ) (\mu_i, \sigma_i) (μi,σi)和策略参数 θ \theta θ上执行策略梯度更新,目标是最大化该任务下的期望回报,得到后更新参数 ( μ i ′ , σ i ′ , θ i ′ ) (\mu_i', \sigma_i', \theta_i') (μi′,σi′,θi′)。
- 策略参数 θ \theta θ的更新是可选的,实验中发现省略 θ \theta θ的内层更新反而更稳定。
- α μ , α σ \alpha_\mu, \alpha_\sigma αμ,ασ是逐参数学习率(per-parameter step sizes),元训练时为每个维度单独学习,这对性能至关重要。
- 外层元更新:使用TRPO优化,使后更新策略的期望回报最大。这迫使潜在空间不仅提供随机性,更要支持快速适应。KL项约束潜在空间接近先验 N ( 0 , 1 ) \mathcal{N}(0,1) N(0,1),确保潜在空间的通用性。
- KL项约束post-update分布接近标准正验,确保新任务可从先验 N ( 0 , I ) \mathcal{N}(0, I) N(0,I)开始适应。
- 测试时探索:对新任务,初始化 ( μ , σ ) (\mu, \sigma) (μ,σ)为先验,通过策略梯度更新适应,相当于在潜在空间中进行结构化后验采样。
4.3 探索机制分析
结构化探索:潜在变量生成连贯的行为模式,如机器人臂的"从左到右扫描"或四足机器人的"向随机方向行走"。这比每步独立高斯噪声高效得多。
任务相关性:元训练使潜在空间覆盖任务分布的关键变异维度。例如,若任务差异主要是目标位置,潜在空间会编码不同探索方向。
密集奖励依赖:元训练阶段需密集奖励 R i ( s t ) = − ∥ x 目标 − x 当前 ∥ 2 R_i(s_t) = -\|x_{\text{目标}} - x_{\text{当前}}\|_2 Ri(st)=−∥x目标−x当前∥2引导潜在空间学习。测试阶段才使用稀疏奖励。这种"mild instrumentation"在论文中被证明可泛化到真实稀疏环境。
五、PEARL:离策略元强化学习
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables, 2019 ICML
5.1 动机:样本效率与任务不确定性建模
前述方法均为on-policy,元训练需要海量样本(10⁸-10⁹步)。PEARL(Efficient Off-Policy Meta-RL via Probabilistic Context Variables, Rakelly et al., 2019)针对两大问题:
- 样本效率:On-policy方法每条轨迹只能用一次,离策略(off-policy)可以利用replay buffer大幅提高效率
- 任务不确定性:RL²和MAML隐式处理不确定性,但在稀疏奖励下需要显式概率推理
PEARL的核心创新是将任务表示为概率分布,并支持离线元训练。定义任务变量 z z z 为未知任务参数的隐变量(如目标位置、物体质量)。智能体维护一个后验分布 q ψ ( z ∣ c ) q_\psi(z | c) qψ(z∣c),其中 c c c 是上下文信息(历史经验)。
5.2 核心创新:上下文变量与解耦训练
概率上下文变量:引入潜在变量 z z z表示任务,从经验 c = { ( s , a , s ′ , r ) } c = \{(s,a,s',r)\} c={(s,a,s′,r)}中推断后验:
q ϕ ( z ∣ c ) ≈ p ( z ∣ c ) q_\phi(z|c) \approx p(z|c) qϕ(z∣c)≈p(z∣c)
解耦采样策略:
- 策略训练:从整个replay buffer中均匀采样,进行off-policy SAC更新
- 上下文编码:仅最近收集的批次中采样,保持与测试时分布一致
使用变分推断近似后验 q ( z ∣ c ) q(z|c) q(z∣c),其中上下文 c = { ( s , a , r , s ′ ) i } i = 1 N c = \{(s,a,r,s')_i\}_{i=1}^N c={(s,a,r,s′)i}i=1N 是历史经验。
变分下界(ELBO):
L = E q ( z ∣ c ) [ log p ( τ ∣ z ) ] − D K L ( q ( z ∣ c ) ∥ p ( z ) ) \mathcal{L} = \mathbb{E}_{q(z|c)}[\log p(\tau|z)] - D_{KL}(q(z|c) \| p(z)) L=Eq(z∣c)[logp(τ∣z)]−DKL(q(z∣c)∥p(z))
目标函数:
L ( ϕ , θ , ψ ) = E T ∼ p ( T ) [ E z ∼ q ϕ ( z ∣ c ) [ R ( T , z ) ] − β D K L ( q ϕ ( z ∣ c ) ∥ p ( z ) ) ] \mathcal{L}(\phi, \theta, \psi) = \mathbb{E}_{\mathcal{T} \sim p(\mathcal{T})} \left[ \mathbb{E}_{z \sim q_\phi(z|c)} \left[ R(\mathcal{T}, z) \right] - \beta D_{KL}(q_\phi(z|c) \| p(z)) \right] L(ϕ,θ,ψ)=ET∼p(T)[Ez∼qϕ(z∣c)[R(T,z)]−βDKL(qϕ(z∣c)∥p(z))]
其中
-
ψ \psi ψ 是策略参数, θ \theta θ 是编码器参数
-
R i ( ⋅ ) R_i(\cdot) Ri(⋅) 可以是各种目标函数,取决于所需的轨迹中和任务有关的信息
-
p ( z ) p(z) p(z) 是先验分布(通常取标准高斯 N ( 0 , I ) \mathcal{N}(0, I) N(0,I))
-
β \beta β 是KL散度权重,平衡利用与信息压缩
关键洞察:上下文推断需要on-policy数据(避免分布不匹配),但策略优化可以用off-policy数据。数据采样策略的解耦是PEARL成功的关键。
5.3 上下文推断架构
q ϕ ( z ∣ c 1 : N ) ∝ ∏ n = 1 N Ψ ϕ ( z ∣ c n ) q_\phi(z|c_{1:N}) \propto \prod_{n=1}^N \Psi_\phi(z|c_n) qϕ(z∣c1:N)∝n=1∏NΨϕ(z∣cn)
每个转移 c n = ( s n , a n , r n , s n ′ ) c_n = (s_n, a_n, r_n, s_n') cn=(sn,an,rn,sn′)独立贡献因子 Ψ ϕ \Psi_\phi Ψϕ,使用排列不变的MLP编码器,避免RNN的顺序依赖,提升训练效率。
5.4 后验采样探索
测试时:
- 初始化 c = ∅ c = \emptyset c=∅,从先验 p ( z ) = N ( 0 , I ) p(z) = \mathcal{N}(0,I) p(z)=N(0,I)采样
- 执行一个episode,收集数据更新 c c c
- 重新采样 z ∼ q ϕ ( z ∣ c ) z \sim q_\phi(z|c) z∼qϕ(z∣c)
- 重复2-3,实现thompson采样式的结构探索
实际局限:在有限步数(如10步)适应时,后验分布未充分收敛,随机采样可能产生次优策略。此外,离线训练要求预收集数据覆盖任务分布,否则会出现分布外泛化问题。
六、VariBAD:贝叶斯自适应的深度强化学习
VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning, 2020 ICLR
6.1 动机:逼近Bayes最优探索
PEARL的后验采样虽然高效,但非最优:它 periodically 采样一个完整MDP假设并贪心地执行最优策略,而非像Bayes最优策略那样系统地减少不确定性。
BAMDP框架:理论上,在信念状态(状态+任务后验)上求解MDP可得Bayes最优策略,但计算不可行。
variBAD(Variational Bayes-Adaptive Deep RL, Zintgraf et al., 2020)提出:用元学习近似BAMDP求解,学习一个能推理任务不确定性的策略:通过变分推断显式学习环境的后验分布,使策略能基于任务不确定性做出最优权衡。其关键洞察是:贝叶斯最优策略的优势源于将不确定性作为决策状态的一部分,而非 handcrafted 的探索奖励。
6.2 核心方法:元学习近似推断
任务表示:将每个MDP M i M_i Mi编码为潜在变量 m i m_i mi,共享动态和奖励函数:
T i ( s ′ ∣ s , a ) ≈ T ( s ′ ∣ s , a ; m i ) R i ( r ∣ s , a , s ′ ) ≈ R ( r ∣ s , a , s ′ ; m i ) \begin{aligned} T_i(s'|s,a) &\approx T(s'|s,a; m_i) \\ R_i(r|s,a,s') &\approx R(r|s,a,s'; m_i) \end{aligned} Ti(s′∣s,a)Ri(r∣s,a,s′)≈T(s′∣s,a;mi)≈R(r∣s,a,s′;mi)
- m i m_i mi在单个任务内恒定,跨任务变化。
变分推断目标:
log p θ ( τ : H + ) ≥ E q ϕ ( m ∣ τ : t ) [ log p θ ( τ : H + ∣ m ) ] − D K L ( q ϕ ( m ∣ τ : t ) ∥ p θ ( m ) ) \log p_\theta(\tau_{:H^+}) \geq \mathbb{E}_{q_\phi(m|\tau_{:t})} \left[ \log p_\theta(\tau_{:H^+}|m) \right] - D_{KL}(q_\phi(m|\tau_{:t}) \| p_\theta(m)) logpθ(τ:H+)≥Eqϕ(m∣τ:t)[logpθ(τ:H+∣m)]−DKL(qϕ(m∣τ:t)∥pθ(m))
变分推断架构
-
编码器:RNN将历史轨迹 τ : t = ( s 0 , a 0 , r 1 , . . . , s t ) \tau_{:t} = (s_0,a_0,r_1,...,s_t) τ:t=(s0,a0,r1,...,st)映射为后验分布
q ϕ ( m ∣ τ : t ) = N ( μ ϕ ( τ : t ) , σ ϕ ( τ : t ) ) q_\phi(m | \tau_{:t}) = \mathcal{N}(\mu_\phi(\tau_{:t}), \sigma_\phi(\tau_{:t})) qϕ(m∣τ:t)=N(μϕ(τ:t),σϕ(τ:t))
关键设计:前序后验作为当前先验,即
p θ ( m ) = q ϕ ( m ∣ τ : t − 1 ) , p θ ( m ) = N ( 0 , I ) 当 t = 0 p_\theta(m) = q_\phi(m | \tau_{:t-1}), \quad p_\theta(m) = \mathcal{N}(0,I) \text{当} t=0 pθ(m)=qϕ(m∣τ:t−1),pθ(m)=N(0,I)当t=0
这使推断在线进行,随数据累积逐步聚焦。 -
解码器:重构整个轨迹(含未来),学习环境与潜变量的关系
log p θ ( τ : H + ∣ m ) = log p ( s 0 ∣ m ) + ∑ t = 0 H + − 1 [ log p ( s t + 1 ∣ s t , a t , m ) + log p ( r t + 1 ∣ s t , a t , s t + 1 , m ) ] \log p_\theta(\tau_{:H^+} | m) = \log p(s_0|m) + \sum_{t=0}^{H^+-1} \big[\log p(s_{t+1}|s_t,a_t,m) + \log p(r_{t+1}|s_t,a_t,s_{t+1},m)\big] logpθ(τ:H+∣m)=logp(s0∣m)+t=0∑H+−1[logp(st+1∣st,at,m)+logp(rt+1∣st,at,st+1,m)] -
策略:以状态和当前后验为输入
π ψ ( a t ∣ s t , q ϕ ( m ∣ τ : t ) ) \pi_\psi(a_t | s_t, q_\phi(m|\tau_{:t})) πψ(at∣st,qϕ(m∣τ:t))
后验分布参数(均值、方差)作为信念状态的一部分,使策略能感知不确定性。
训练目标:
L ( ϕ , θ , ψ ) = E p ( M ) [ J ( ψ , ϕ ) + λ ∑ t = 0 H + ELBO t ( ϕ , θ ) ] \mathcal{L}(\phi,\theta,\psi) = \mathbb{E}_{p(M)} \left[ \mathcal{J}(\psi,\phi) + \lambda \sum_{t=0}^{H^+} \text{ELBO}_t(\phi,\theta) \right] L(ϕ,θ,ψ)=Ep(M)
J(ψ,ϕ)+λt=0∑H+ELBOt(ϕ,θ)
同时优化RL回报 J \mathcal{J} J和推断质量(ELBO)。
其中逐时序ELBO为:
ELBO t = E q ϕ ( m ∣ τ : t ) [ log p θ ( τ : H + ∣ m ) ] − D KL ( q ϕ ( m ∣ τ : t ) ∥ p θ ( m ) ) \text{ELBO}_t = \mathbb{E}_{q_\phi(m|\tau_{:t})}\left[ \log p_\theta(\tau_{:H^+} | m) \right] - D_{\text{KL}}\big(q_\phi(m|\tau_{:t}) \,\|\, p_\theta(m)\big) ELBOt=Eqϕ(m∣τ:t)[logpθ(τ:H+∣m)]−DKL(qϕ(m∣τ:t)∥pθ(m))
第一项是重构损失(环境模型学习),第二项是KL散度(推断准确性)。 λ \lambda λ权衡两类目标,实践中对编码器和策略使用不同优化器和学习率(encoder 仅由 ELBO 更新,policy 仅由 RL loss 更新),避免梯度干扰。
6.3 与PEARL的本质区别
| 特性 | PEARL | variBAD |
|---|---|---|
| 探索机制 | 后验采样(Thompson Sampling) | Bayes最优(系统减少不确定性) |
| 上下文表示 | 排列不变的MLP | RNN(保持时序信息) |
| 训练数据 | 解耦on-policy/off-policy | 全on-policy |
| 假设 | 任务在episode间不变 | 任务在trial间不变,但episode间可推理 |
PEARL可视为VariBAD的特例:其编码器仅在episode间更新(非在线),且将后验采样与策略解耦,导致探索次优。VariBAD通过时序依赖的先验链和端到端训练,使策略能利用瞬时不确定性,实现单episode内的快速适应。
6.4 探索机制分析
自动贝叶斯最优探索:策略通过元学习,隐式获得不确定性驱动的探索能力。当后验方差大时,策略倾向于采集能降低不确定性的信息性动作;当后验趋于峰值时,自动转向 exploitation。这并非显式添加信息增益奖励,而是元训练目标迫使策略为最大化在线回报而自发学习探索模式。
七、方法演进脉络与对比分析
7.1 时间线与演进逻辑
2016 RL² → 2017 MAML-RL → 2018 MAESN → 2019 PEARL → 2020 variBAD
演进驱动力:
- 效率问题:RL²/MAML on-policy效率低 → PEARL引入off-policy
- 探索质量:RL²探索随机 → MAESN引入结构化潜在空间 → PEARL/variBAD显式概率建模
- 最优性:PEARL后验采样非最优 → variBAD逼近Bayes最优
7.2 技术路线对比
| 方法 | 学习机制 | 随机性来源 | 样本效率 | 探索最优性 | 适用场景 |
|---|---|---|---|---|---|
| RL² | RNN黑盒记忆 | 动作空间噪声 | ★★★☆☆ | ★★☆☆☆ | 小规模离散任务 |
| MAML-RL | 参数初始化微调 | 动作空间噪声 | ★★☆☆☆ | ★★☆☆☆ | 连续控制,收敛快 |
| MAESN | 潜在空间微调 | 学习结构化噪声 | ★★★☆☆ | ★★★☆☆ | 需要连贯探索的任务 |
| PEARL | 上下文推断+off-policy | 后验采样 | ★★★★★ | ★★★☆☆ | 大规模任务,效率优先 |
| variBAD | 变分推断+on-policy | Bayes最优信念 | ★★★☆☆ | ★★★★★ | 稀疏奖励,需最优探索 |
八、总结与展望
元强化学习从MAML的梯度优化框架,发展到PEARL的离线概率推断,再到MAESN/VariBAD的显式探索机制,逐步解决了快速适应、样本效率和主动探索三大挑战。MAML的通用性、RL²的端到端简洁性、PEARL的样本效率、MAESN的探索能力、VariBAD的不确定性量化,各自在不同维度推动了领域进步。当前的研究趋势表明,结合离线学习、概率推断和信息理论的方法将在复杂环境的元强化学习中发挥关键作用。
这五篇论文构成了Meta-RL从概念验证到实用高效的完整演进链:
- RL²证明了"学习算法可编码为网络动态"的可行性,但效率低下
- MAML简化了元学习目标,使优化更稳定,但未解决探索问题
- MAESN引入结构化噪声,首次将"学习探索"作为显式优化目标
- PEARL通过概率建模和离策略训练,在样本效率上取得突破
- variBAD结合元学习与贝叶斯决策理论,探索质量接近理论最优
未解决的关键问题:
- 可扩展性:variBAD的RNN推断在大状态空间(如视觉)仍昂贵
- 分布外泛化:所有方法假设训练/测试任务同分布,对OOD任务鲁棒性差
- 理论保证:缺乏关于收敛性和regret的理论分析
- 计算开销:元训练成本是普通RL的10-100倍
更多推荐


所有评论(0)