ICLR 2021

Li, Lanqing, Rui Yang, and Dijun Luo. “Focal: Efficient fully-offline meta-reinforcement learning via distance metric learning and behavior regularization.” arxiv preprint arxiv:2010.01112 (2020).

  • 论文原文:https://arxiv.org/abs/2010.01112v4
  • 源代码:https://github.com/FOCAL-ICLR/FOCAL-ICLR/

想象你是一位机器人工程师,需要训练一只机械臂完成"抓取不同物体"的任务。传统强化学习(RL)的做法是让机器臂在真实环境中不断试错——抓起杯子、掉落、调整力度再试。这在工厂里可行,但在医疗手术或核电站等高风险场景,每一次错误都可能代价惨重。更现实的情况是:你只有一堆历史操作数据(比如人类专家的操作记录),既不能再让机器臂随意探索,又希望它能快速适应新任务(比如从抓杯子切换到抓手术刀)。这就是离线元强化学习(Offline Meta-RL, OMRL) 要解决的难题。

本文提出的FOCAL(Fully-Offline Context-based Actor-critic meta-Learning)算法,首次实现了无需任何在线交互的端到端元强化学习。它通过三个关键设计——确定性上下文编码器负幂距离度量损失解耦训练策略——让智能体仅从历史数据中就能学会"如何快速学习新任务"。在6个标准测试环境中,FOCAL相比现有方法样本效率提升显著,且能稳定收敛。

一、研究背景

1.1 传统强化学习的困境

标准RL的成功(如AlphaGo、机器人控制)建立在在线探索的基础上:智能体与环境持续交互,通过试错改进策略。但在自动驾驶、精准医疗、精密农业等领域:

  • 物理风险:错误动作可能导致事故或病人伤害
  • 成本高昂:真实环境部署耗时耗力
  • 样本低效:纯在线学习需要天文数字的交互次数

1.2 离线RL:从静态数据中学习

离线RL(又称Batch RL)转向利用静态数据集学习,无需在线交互。其核心挑战是分布偏移(Distribution Shift):训练数据由某个"行为策略"(behavior policy)采集,而学习的策略可能访问状态-动作空间之外的区域,导致值函数估计出现自举误差(Bootstrapping Error)——错误未被修正反而在Bellman迭代中放大,最终发散。

现有解决方案主要是行为正则化:强制学习策略接近数据分布。例如BRAC(Behavior Regularized Actor-Critic)在值函数中加入策略分歧惩罚项:
D ( π θ ( ⋅ ∣ s ) , π b ( ⋅ ∣ s ) ) D(\pi_\theta(\cdot|s), \pi_b(\cdot|s)) D(πθ(s),πb(s))
其中 π θ \pi_\theta πθ是学习策略, π b \pi_b πb是行为策略。这能约束策略的"想象力"不超出数据支持范围。

1.3 元强化学习:学会快速适应

元RL旨在学习一个元策略,能在见过的大量任务上快速适应新任务。典型框架如PEARL使用概率上下文编码器 q ( z ∣ c ) q(z|c) q(zc)将任务相关的经验 c c c编码为隐变量 z z z,策略 π ( a ∣ s , z ) \pi(a|s,z) π(as,z)据此调整行为。但PEARL需要在线微调(meta-testing时探索),无法满足纯离线需求。

1.4 OMRL:离线元强化学习

OMRL试图结合两者优势

  1. 完全离线学习:仅从静态数据集中学习
  2. 快速任务适应:在测试时仅凭少量上下文数据快速适应新任务
  3. 无环境交互:在适应过程中也不能与环境交互

但面临双重挑战:

  1. 离线约束:如何处理分布偏移?
  2. 任务推断:如何仅从静态数据中学会区分任务?

现有尝试要么是模型依赖的(如MBML需学习动力学模型),要么需多阶段训练,缺乏端到端的简洁方案。

二、问题形式化

2.1 MDP

考虑确定性MDP(如MuJoCo环境): M = ( S , A , P , R , ρ 0 , γ ) \mathcal{M}=(\mathcal{S},\mathcal{A},P,R,\rho_0,\gamma) M=(S,A,P,R,ρ0,γ)

  • S \mathcal{S} S: 状态空间(如机器人关节角度)
  • A \mathcal{A} A: 动作空间(如电机扭矩)
  • P ( s ′ ∣ s , a ) P(s'|s,a) P(ss,a): 确定性转移函数(Dirac delta分布)
  • R ( s , a ) R(s,a) R(s,a): 有界奖励函数
  • ρ 0 ( s ) \rho_0(s) ρ0(s): 初始状态分布
  • γ ∈ ( 0 , 1 ) \gamma\in(0,1) γ(0,1): 折扣因子

价值函数定义为:
V π ( s ) = ∑ t = 0 ∞ γ t E s t ∼ μ π t ( s ) [ R ( s t ) ] V_\pi(s) = \sum_{t=0}^\infty \gamma^t \mathbb{E}_{s_t\sim\mu_\pi^t(s)}[R(s_t)] Vπ(s)=t=0γtEstμπt(s)[R(st)]

Q π ( s , a ) = R ( s , a ) + γ E s ′ ∼ P ( ⋅ ∣ s , a ) [ V π ( s ′ ) ] Q_\pi(s,a) = R(s,a) + \gamma\mathbb{E}_{s'\sim P(\cdot|s,a)}[V_\pi(s')] Qπ(s,a)=R(s,a)+γEsP(s,a)[Vπ(s)]

2.2 OMRL 问题

给定任务分布 p ( T ) p(\mathcal{T}) p(T),每个任务 T i \mathcal{T}_i Ti是MDP的变体(共享状态-动作空间,但转移/奖励函数不同)。对每个任务,我们有一个离线数据集
D i = { ( s i , t , a i , t , s i , t ′ , r i , t ) } t = 1 N \mathcal{D}_i = \{(s_{i,t}, a_{i,t}, s_{i,t}', r_{i,t})\}_{t=1}^N Di={(si,t,ai,t,si,t,ri,t)}t=1N
由行为策略 β i \beta_i βi采集。

OMRL的目标是学习一个元策略 π θ ( a ∣ s , z ) \pi_\theta(a|s,z) πθ(as,z) 和一个上下文编码器 q ϕ ( z ∣ c ) q_\phi(z|c) qϕ(zc),使得对于新任务 T new \mathcal{T}_{\text{new}} Tnew,仅需少量上下文数据 c new c_{\text{new}} cnew,就能:

  1. 推断任务表示 z new = q ϕ ( c new ) z_{\text{new}} = q_\phi(c_{\text{new}}) znew=qϕ(cnew)
  2. 执行适应后的策略 π θ ( a ∣ s , z new ) \pi_\theta(a|s,z_{\text{new}}) πθ(as,znew)
  3. 整个过程完全离线,无环境交互

2.3 任务增强MDP(TA-MDP)

为理论分析,定义 任务增强MDP(Task-Augmented MDP, TA-MDP)
M = ( S , Z , A , P , R , ρ 0 , γ ) \mathcal{M} = (\mathcal{S},\mathcal{Z},\mathcal{A},P,R,\rho_0,\gamma) M=(S,Z,A,P,R,ρ0,γ)

其中 Z \mathcal{Z} Z 是任务潜在空间。策略和价值函数现在都依赖于状态 s s s 和任务表示 z z z

  • 状态空间 S × Z \mathcal{S}\times\mathcal{Z} S×Z(原始状态+任务嵌入)
  • 转移 P ( s ′ , z ′ ∣ s , z , a ) = P z ( s ′ ∣ s , a ) P(s',z'|s,z,a) = P_z(s'|s,a) P(s,zs,z,a)=Pz(ss,a)(嵌入不变)
  • 奖励 R ( s , z , a ) = R z ( s , a ) R(s,z,a) = R_z(s,a) R(s,z,a)=Rz(s,a)

在此框架下,元RL退化为在增广状态空间上的标准RL,保证最优策略存在性。

三、FOCAL 核心模块 - 学习有效的任务表示

3.1 核心假设:任务-转移对应假设

FOCAL的核心洞察源于一个关键假设:

假设1(任务-转移对应):对于任务分布 p ( T ) p(\mathcal{T}) p(T),若两个任务在任意状态-动作对 ( s , a ) (s,a) (s,a)上的转移和奖励完全相同,则这两个任务必然相同。形式化地:
∀ T 1 , T 2 , ( s , a ) : P 1 ( ⋅ ∣ s , a ) = P 2 ( ⋅ ∣ s , a ) , R 1 ( s , a ) = R 2 ( s , a )    ⟺    T 1 = T 2 \forall \mathcal{T}_1,\mathcal{T}_2, (s,a): \quad P_1(\cdot|s,a)=P_2(\cdot|s,a), R_1(s,a)=R_2(s,a) \iff \mathcal{T}_1=\mathcal{T}_2 T1,T2,(s,a):P1(s,a)=P2(s,a),R1(s,a)=R2(s,a)T1=T2

确定性环境中,这意味着单个转移样本 ( s , a , s ′ , r ) (s,a,s',r) (s,a,s,r)就足以唯一确定任务身份。这与PEARL等需要大量样本进行概率推断的方法形成对比——既然数据是静态的、完整的,我们不需要建模不确定性,而应将任务推断转化为确定性嵌入学习问题。

3.2 模块一:确定性上下文编码器

PEARL使用概率编码器 q ( z ∣ c ) q(z|c) q(zc)建模 z z z为分布(如高斯),这在在线探索中有助于处理不确定性。但在离线场景下:

  • 无需探索:没有在线适应阶段,不确定性建模是冗余的
  • 数据完备:静态数据集中转移信息完整,确定性映射足够
  • 计算高效:避免变分推断的采样和KL散度计算

FOCAL采用确定性编码器 z = q ϕ ( c ) z = q_\phi(c) z=qϕ(c),其中 c c c是上下文(一批转移样本)。通过排列不变性(permutation-invariant)设计(如均值池化),编码器不依赖样本顺序。

3.3 模块二:负幂距离度量学习(核心创新)

3.3.1 为什么需要距离度量学习?

传统上下文编码器通过Bellman梯度学习: z z z影响Q值,Q值误差反向传播更新编码器。但FOCAL团队发现这会导致表示崩溃——不同任务的嵌入向量挤在一起,因为:

  • 连续性诅咒:神经网络是Lipschitz连续的,相近输入产生相近输出。若 z i z_i zi z j z_j zj距离很小,则 Q ( s , a , z i ) ≈ Q ( s , a , z j ) Q(s,a,z_i)\approx Q(s,a,z_j) Q(s,a,zi)Q(s,a,zj),无法区分不同任务的真值差异。
  • 梯度主导:在行为正则化强的任务中,Bellman梯度幅度远大于任务区分信号,编码器被迫关注动作价值而非任务身份。

因此,需要显式约束让不同任务的嵌入在潜空间Z中保持分离。

连续性诅咒 理论分析

核心论点:如果两个不同任务的潜在表示 z i z_i zi z j z_j zj 在嵌入空间中过于接近,那么基于神经网络的连续价值函数 Q ψ ( s , z , a ) Q_\psi(s,z,a) Qψ(s,z,a) 将无法区分它们:
∣ z i − z j ∣ < η ⇒ ∣ Q ψ ( s , z i , a ) − Q ψ ( s , z j , a ) ∣ < ϵ |z_i - z_j| < \eta \Rightarrow |Q_\psi(s,z_i,a) - Q_\psi(s,z_j,a)| < \epsilon zizj<ηQψ(s,zi,a)Qψ(s,zj,a)<ϵ

但不同任务的真实Q值 Q ∗ ( s , z i , a ) Q^*(s,z_i,a) Q(s,zi,a) Q ∗ ( s , z j , a ) Q^*(s,z_j,a) Q(s,zj,a) 可能差异很大。这会导致表示混淆和策略性能下降。

证明思路

  1. 神经网络 Q ^ θ \hat{Q}_\theta Q^θ是Lipschitz连续的:

∀ ϵ > 0 , ∃ η > 0 : ∥ z 1 − z 2 ∥ < η ⇒ ∣ Q ^ θ ( s , a , z 1 ) − Q ^ θ ( s , a , z 2 ) ∣ < ϵ \forall \epsilon>0, \exists \eta>0: \|z_1-z_2\|<\eta \Rightarrow |\hat{Q}_\theta(s,a,z_1)-\hat{Q}_\theta(s,a,z_2)|<\epsilon ϵ>0,η>0:z1z2<ηQ^θ(s,a,z1)Q^θ(s,a,z2)<ϵ

  1. 但不同任务的真值函数差异由转移和奖励决定:

∣ Q ˉ θ ( s , a , z 1 ) − Q ˉ θ ( s , a , z 2 ) ∣ = ∣ γ E s ′ ∼ P z 1 [ V ( s ′ ) ] − γ E s ′ ∼ P z 2 [ V ( s ′ ) ] + R z 1 − R z 2 ∣ |\bar{Q}_\theta(s,a,z_1)-\bar{Q}_\theta(s,a,z_2)| = |\gamma\mathbb{E}_{s'\sim P_{z_1}}[V(s')] - \gamma\mathbb{E}_{s'\sim P_{z_2}}[V(s')] + R_{z_1}-R_{z_2}| Qˉθ(s,a,z1)Qˉθ(s,a,z2)=γEsPz1[V(s)]γEsPz2[V(s)]+Rz1Rz2

  1. 矛盾:左边可任意小(网络连续性),右边由任务本质差异决定,未必小。因此,若嵌入不分离,网络必须在有限容量下拟合两个矛盾目标,必然失败

这从理论上说明DML的分离性是元RL成功的必要条件。

3.3.2 对比损失的局限性

标准对比损失(Contrastive Loss):
L c o n t m ( x i , x j ) = 1 { y i = y j } ∥ q i − q j ∥ 2 2 + 1 { y i ≠ y j } max ⁡ ( 0 , m − ∥ q i − q j ∥ 2 ) 2 \mathcal{L}_{cont}^m(x_i,x_j) = \mathbb{1}\{y_i=y_j\}\|q_i-q_j\|_2^2 + \mathbb{1}\{y_i\neq y_j\}\max(0, m-\|q_i-q_j\|_2)^2 Lcontm(xi,xj)=1{yi=yj}qiqj22+1{yi=yj}max(0,mqiqj2)2

问题:正幂距离(L²)对相近点的惩罚弱。当嵌入随机初始化时,不同类样本可能距离很近,但 max ⁡ ( 0 , m − ∥ q i − q j ∥ ) 2 \max(0,m-\|q_i-q_j\|)^2 max(0,mqiqj)2在此区域梯度小,无法有效推开。这导致聚类退化:多个任务的嵌入混成一个簇。

理论证明(附录B.1):对比损失与数据集方差成正比。最小化它会鼓励嵌入分布坍缩到少数点(如伯努利分布),而非均匀分散。

3.3.3 负幂损失:引入"排斥力"

FOCAL提出逆幂距离损失
L d m l ( x i , x j ) = 1 { y i = y j } ∥ q i − q j ∥ 2 2 + 1 { y i ≠ y j } β ⋅ 1 ∥ q i − q j ∥ 2 n + ϵ \mathcal{L}_{dml}(x_i,x_j) = \mathbb{1}\{y_i=y_j\}\|q_i-q_j\|_2^2 + \mathbb{1}\{y_i\neq y_j\}\beta\cdot\frac{1}{\|q_i-q_j\|_2^n + \epsilon} Ldml(xi,xj)=1{yi=yj}qiqj22+1{yi=yj}βqiqj2n+ϵ1

与传统对比损失(鼓励不同类别样本远离)不同,负幂项 1 ∣ ∣ q i − q j ∣ ∣ 2 n \frac{1}{||{q}_i-{q}_j||^n_2} ∣∣qiqj2n1 提供了更强的"排斥力",确保不同任务的嵌入表示充分分离。这相当于在潜空间中:

  • 同类样本:拉近(弹簧拉拽)
  • 异类样本:无论距离多近,强烈排斥(库仑斥力)

将潜空间Z想象成带电金属立方体,每个嵌入是带同种电荷的粒子。根据高斯定律,平衡时电荷会分布在表面曲率最大处(顶点),恰好对应任务分离最远的配置。实验显示,嵌入确实聚集在超立方体的顶点附近。

参数选择 n = 2 n=2 n=2(逆平方)表现最佳,与电磁学中的库仑势一致。

3.4 模块三:解耦训练策略

FOCAL的训练流程将任务推断学习控制策略学习解耦,关键是梯度流分离:

  • 上下文编码器 q ϕ q_\phi qϕ更新:仅用 L d m l \mathcal{L}_{dml} Ldml不接收Bellman梯度
  • Actor/Critic更新:用行为正则化的SAC损失,但 z ˉ \bar{z} zˉ视为常数(梯度停止)

动机:防止Bellman误差主导编码器学习。实验中,耦合训练会导致嵌入崩溃,因为:

  1. 在复杂任务(如Ant)中,行为正则化强度 α \alpha α 需极大( 1 0 6 10^6 106量级)
  2. 值惩罚使Q值量级达 1 0 11 10^{11} 1011,梯度爆炸
  3. DML信号被淹没,编码器无法学习任务区分

解耦后,编码器专注于度量学习,策略网络专注于价值学习,各司其职。

四、算法实现细节 - 处理分布偏移

4.1 行为正则化的Actor-Critic(BRAC)

为了解决离线RL的外推误差问题,FOCAL采用行为正则化(Behavior Regularization)。对于每个任务,定义正则化的价值函数:
V π D ( s ) = ∑ t = 0 ∞ γ t E s t ∼ μ π t ( s ) [ R π ( s t ) − α D ( π θ ( ⋅ ∣ s t ) , π b ( ⋅ ∣ s t ) ) ] V_\pi^D(s) = \sum_{t=0}^\infty \gamma^t \mathbb{E}_{s_t\sim\mu_\pi^t(s)}\left[R_\pi(s_t) - \alpha D(\pi_\theta(\cdot|s_t), \pi_b(\cdot|s_t))\right] VπD(s)=t=0γtEstμπt(s)[Rπ(st)αD(πθ(st),πb(st))]

目标Q函数(带梯度停止):
Q ˉ ψ D ( s , a ) = Q ˉ ψ ( s , a ) − γ α D ^ ( π θ ( ⋅ ∣ s ) , π b ( ⋅ ∣ s ) ) \bar{Q}_\psi^D(s,a) = \bar{Q}_\psi(s,a) - \gamma\alpha\hat{D}(\pi_\theta(\cdot|s), \pi_b(\cdot|s)) QˉψD(s,a)=Qˉψ(s,a)γαD^(πθ(s),πb(s))

其中:

  • D D D 是策略分布间的散度度量(如KL散度)
  • α \alpha α 是正则化强度
  • π b \pi_b πb 是生成数据集的行为策略
  • D ^ \hat{D} D^ D D D 的样本估计

损失函数

  • Critic损失:最小化TD误差

L c r i t i c = E ( s , a , r , s ′ ) ∼ D [ ( r + γ Q ˉ ψ D ( s ′ , a ′ ) − Q ψ ( s , a ) ) 2 ] \mathcal{L}_{critic} = \mathbb{E}_{(s,a,r,s')\sim\mathcal{D}}\left[\left(r + \gamma\bar{Q}_\psi^D(s',a') - Q_\psi(s,a)\right)^2\right] Lcritic=E(s,a,r,s)D[(r+γQˉψD(s,a)Qψ(s,a))2]

  • Actor损失:最大化Q值同时惩罚策略偏离

L a c t o r = − E ( s , a , r , s ′ ) ∼ D [ E a ′ ′ ∼ π θ ( ⋅ ∣ s ) [ Q ψ ( s , a ′ ′ ) ] − α D ^ ] \mathcal{L}_{actor} = -\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}}\left[\mathbb{E}_{a''\sim\pi_\theta(\cdot|s)}[Q_\psi(s,a'')] - \alpha\hat{D}\right] Lactor=E(s,a,r,s)D[Ea′′πθ(s)[Qψ(s,a′′)]αD^]

其中 D ^ \hat{D} D^ f f f-散度的对偶形式估计,通过判别器 g g g最小化 E π b [ log ⁡ g ] + E π θ [ − log ⁡ g ] \mathbb{E}_{\pi_b}[\log g] + \mathbb{E}_{\pi_\theta}[-\log g] Eπb[logg]+Eπθ[logg]

4.2 算法流程

训练阶段(算法1)

  1. 从每个任务的静态数据集 D i \mathcal{D}_i Di 中采样上下文 c i c_i ci 和训练批次 b i b_i bi
  2. 使用 L d m l \mathcal{L}_{dml} Ldml 更新上下文编码器 q ϕ q_\phi qϕ
  3. 使用 L actor \mathcal{L}_{\text{actor}} Lactor L critic \mathcal{L}_{\text{critic}} Lcritic 更新策略 π θ \pi_\theta πθ 和Q函数 Q ψ Q_\psi Qψ
  4. 三个组件的训练梯度解耦

测试阶段(算法2)

  1. 对新任务 T new \mathcal{T}_{\text{new}} Tnew,从其数据集 D new \mathcal{D}_{\text{new}} Dnew 中采样少量上下文 c new c_{\text{new}} cnew
  2. 计算任务表示 z new = q ϕ ( c new ) z_{\text{new}} = q_\phi(c_{\text{new}}) znew=qϕ(cnew)
  3. 执行策略 π θ ( a ∣ s , z new ) \pi_\theta(a|s,z_{\text{new}}) πθ(as,znew) 进行评估
  4. 整个过程完全离线,无环境交互

五、实验

5.1 测试环境设计

FOCAL在6个元RL基准上评估,分为两类:

5.1.1 奖励函数变化类
  • Sparse-Point-Robot:2D导航,目标在单位圆上,稀疏奖励(仅目标附近有奖励)
  • Half-Cheetah-Vel:猎豹机器人需达到目标速度,100个不同速度任务
  • Half-Cheetah-Fwd-Back:前进/后退两个任务
  • Ant-Fwd-Back:蚂蚁机器人前进/后退
5.1.2 转移动力学变化类
  • Walker-2D-Params:Walker机器人的质量、摩擦系数等50种随机配置
  • Point-Robot-Wind:导航任务带随机风向漂移

数据生成:为每个任务训练SAC策略,保存不同训练阶段的模型(随机→专家), rollout生成轨迹,构建混合质量数据集(expert/medium/random/mixed)。

5.2 基线对比

  1. Batch PEARL:直接移除PEARL的探索,纯离线训练
  2. Contextual BCQ:将BCQ的扰动网络扩展为条件化于 z z z
  3. MBML:模型依赖方法,学习每个任务的动力学和奖励模型

5.3 主要结果

FOCAL在所有环境中样本效率渐近性能均显著优于基线。尤其在稀疏奖励场景(Sparse-Point-Robot),其他方法几乎无法学习(返回值为0),而FOCAL能稳定提升。

关键观察:混合数据集(含次优动作)反而优于专家数据集。这是因为:

  • 专家数据:各任务状态-动作分布重叠少,编码器易过拟合到表层统计特征(MDP歧义问题)
  • 混合数据:提供更广的状态-动作支持,帮助编码器学到转移-奖励的本质映射

5.4 消融实验

5.4.1 距离度量幂次影响
  • 负幂损失(逆、逆平方)比正幂损失(线性、平方)效果更好
  • 定义有效分离率(ESR):不同任务嵌入对之间的距离大于随机分布期望的比例
  • 逆平方损失:ESR = 0.861;平方损失:ESR = 0.506
  • 负幂损失能更有效地分离不同任务的嵌入表示,真正实现任务分离
5.4.2 确定性 vs 概率上下文编码器
  • 在完全离线设置下,确定性编码器显著优于概率编码器
  • 确定性编码器在奖励/动力学变化任务上均优于概率变体。概率模型的不确定性估计在离线场景下是冗余,反而引入噪声
  • 原因:离线元RL不需要探索,且任务-转移对应假设消除了不确定性推理的需求
5.4.3 解耦 vs 耦合训练
  • 解耦训练(上下文编码器独立训练)比耦合训练(贝尔曼梯度传播到编码器)效果更好
  • 但在策略正则化(而非值惩罚)下,耦合训练可能因端到端优化而有竞争力,表明损失函数的量级平衡是关键。
  • 原因:行为正则化需要大的正则化强度,导致贝尔曼梯度主导表示学习,使嵌入表示崩溃

5.5 其他分析

数据质量的影响

  • 对于某些任务(如Ant、Walker),混合质量数据(包含随机、中等、专家轨迹)优于纯专家数据
  • 原因:混合数据提供更广的状态-动作分布支持,有助于上下文编码器学习任务特性与转移元组间的正确关联
  • 纯专家数据可能导致任务间状态-动作分布重叠少,引发MDP模糊性问题(过拟合到虚假关联)

分布偏移敏感性

  • FOCAL对训练-测试分布偏移敏感
  • 训练和测试数据来自相似分布时性能最佳
  • 在稀疏奖励环境中尤为明显,因为此时任务-转移对应假设不再严格成立

行为正则化的两种形式

  • 价值惩罚:在价值/Q函数中添加正则化项,需要极大的正则化强度( α = 1 0 6 \alpha=10^6 α=106),导致Q值量级极大
  • 策略正则化:在策略损失中添加正则化项,Q函数收敛到真实值量级,训练更稳定
  • 论文发现,在复杂任务上,策略正则化通常更有效

六、总结

FOCAL通过确定性嵌入负幂度量解耦训练三重设计,首次在完全离线场景下实现了高效元强化学习。其核心贡献不仅是算法性能,更在于理论澄清了任务推断与价值学习的内在矛盾,并提供了解决方案。

6.1 算法局限性

  1. 任务-转移对应假设:要求每个任务有唯一的转移和奖励函数。这在某些现实场景中可能不成立(如不同任务可能有相同的局部动态但全局结构不同)

  2. 确定性MDP假设:假设环境动态是确定性的。这限制了FOCAL在随机环境中的应用

  3. 稀疏奖励挑战:在稀疏奖励环境下,任务推断变得更加困难,性能可能下降

  4. 分布偏移敏感性:对训练-测试分布偏移敏感,需要仔细的数据收集策略

6.2 改进与扩展

同一团队后续工作《Improved context-based offline meta-RL with attention and contrastive learning》对FOCAL进行了改进:

  1. 引入注意力机制:更好地捕捉上下文中的关键信息
  2. 对比学习增强:改进任务表示学习
  3. 处理MDP模糊性:专门解决任务推断过拟合到状态-动作分布的问题
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐