Supervised pretraining can learn in-context reinforcement learning 中文翻译

大型变压器模型在多样化数据集上的训练显示出惊人的上下文学习能力，在未明确训练的任务上实现了高效的少样本性能。本文研究了变压器在决策问题中的上下文学习能力，即针对乐队和马尔可夫决策过程的强化学习（RL）。为此，我们引入并研究了决策预训练变压器（DPT），这是一种监督预训练方法，变压器在给定查询状态和上下文交互数据集的情况下预测最佳行动，涵盖一系列多样化任务。尽管该过程相对简单，但却使模型具备了多项令

自闭自闭自闭了

783人浏览 · 2025-03-10 17:05:26

自闭自闭自闭了 · 2025-03-10 17:05:26 发布

摘要

大型transformer模型在多样化数据集上的训练显示出惊人的上下文学习能力，在未明确训练的任务上实现了高效的少样本性能。本文研究了transformer在决策问题中的上下文学习能力，即针对乐队和马尔可夫决策过程的强化学习（RL）。为此，我们引入并研究了决策预训练transformer（DPT），这是一种监督预训练方法，transformer在给定查询状态和上下文交互数据集的情况下预测最佳行动，涵盖一系列多样化任务。尽管该过程相对简单，但却使模型具备了多项令人惊讶的能力。我们发现，预训练的transformer可以在上下文中解决一系列RL问题，展现出在线探索和离线保守的特性，尽管未明确训练为如此。该模型还能够超越预训练分布，推广到新任务，并自动调整其决策策略以适应未知结构。从理论上讲，我们展示了DPT可以视为贝叶斯后验采样的高效实现，这是一种可证明的样本高效RL算法。我们进一步利用这一联系，为DPT产生的上下文算法的遗憾提供保证，并证明其学习速度快于生成预训练数据的算法。这些结果暗示了在transformer中灌输强大的上下文决策能力的一条有前景且简单的路径。

1 引言

在监督学习中，基于transformer的模型在大规模训练中展现出令人印象深刻的能力，能够在给定输入上下文的情况下执行任务，通常被称为少样本提示或上下文学习。在这种情况下，预训练模型会接收到少量的监督输入-输出示例，并被要求预测未配对输入的最可能结果（即输出），而无需更新参数。在过去几年中，上下文学习已被应用于解决一系列任务，越来越多的研究开始理解和分析监督学习中的上下文学习。本文的重点是研究和理解上下文学习在序列决策中的应用，特别是在强化学习（RL）环境中的应用。决策（例如RL）比监督学习要动态和复杂得多。理解和利用上下文学习可能会大幅提升智能体根据环境观察进行适应和少样本决策的能力。这种能力对于从机器人技术到推荐系统的实际应用至关重要。

在上下文决策中，与输入-输出元组不同，上下文以状态-行动-奖励元组的形式出现，代表与未知环境的交互数据集。智能体必须利用这些交互来理解世界的动态以及哪些行动会导致良好的结果。在线RL算法中，良好决策的一个标志是在选择探索性行动以获取信息与根据这些信息选择最佳行动之间的明智平衡。相反，只有获得次优离线数据集的RL智能体应产生保守选择行动的策略。理想的上下文决策者应展现出类似的行为。

为了正式研究上下文决策，我们提出了一种新的简单监督预训练目标，即训练（通过监督学习）一个transformer，根据查询状态和多样任务中的上下文交互数据集预测最佳行动标签。我们将预训练模型称为决策预训练transformer（DPT）。一旦训练完成，DPT可以作为在线或离线RL算法在新任务中使用，通过传递上下文交互数据集并查询其在不同状态下的最佳行动预测。例如，在在线设置中，上下文数据集最初为空，DPT的预测不确定，因为新任务未知，但随着学习的进行，它会用自己的交互填充数据集，并对最佳行动变得更加自信。我们通过经验和理论证明，DPT能够产生出乎意料的有效上下文决策者，并提供遗憾保证。事实证明，DPT有效地执行后验采样——一种可证明为样本高效的贝叶斯RL算法，历史上因其计算负担而受到限制。以下是我们的主要发现总结：

仅预测最佳行动就能产生近乎最佳的决策算法。 DPT的目标仅基于从上下文交互中预测最佳行动。最开始时，尚不明显在测试时这些预测会在任务未知且需要在线探索等行为时产生良好的决策行为。有趣的是，DPT作为一种算法能够处理这种上下文中的不确定性。例如，尽管没有明确训练去探索，DPT依然展现出与手工设计算法相当的探索策略，以发现最佳行动。
DPT对新决策问题具有良好的泛化能力，在线和离线均可。 我们展示了DPT能够处理在其预训练数据中未见的奖励分布，以及在简单的MDP中未见的目标、动态和数据集。这表明，预训练期间学习的上下文策略是鲁棒且可泛化的，在测试时无需任何参数更新。
DPT通过利用潜在结构改善了预训练数据。 例如，在参数化乐队问题中，专门的算法可以利用结构（如线性奖励）并提供可证明的更好遗憾，但必须事先知道表示。令人惊讶的是，我们发现即使在未知表示的情况下，在线性乐队问题上的预训练也使DPT能够选择行动并以匹配高效线性乐队算法的方式进行探索。这一结果表明，DPT具备在未见过的潜在结构基础上学习改进的上下文策略的能力。
通过上下文学习可以实现后验采样。 后验采样（PS）是汤普森采样的一种推广，可以可证明地高效解决在线RL问题，但一个常见的批评是缺乏高效的方式来更新和从后验分布中采样。DPT可以被视为学习最佳行动的后验分布，从而简化PS过程。在某些条件下，我们理论上证明了上下文中的DPT等同于PS。此外，DPT的先验和后验更新基于数据，而不需要事先指定。这表明，上下文学习可能有助于通过后验采样解锁实用且高效的RL。

2 相关工作

元学习
从算法角度看，上下文学习属于元学习框架。高层次上，这些方法试图学习任务训练分布的某种潜在共享结构，以加速新任务的学习。在决策制定和强化学习（RL）中，通常会选择具体学习的共享“结构”，例如任务的动态、任务上下文标识符、时间扩展的技能和选项，或神经网络策略的初始化。上下文学习可以被视为采取更无偏见的方式，学习学习算法本身，更类似于一些相关研究。算法蒸馏（AD）也属于这一类别，应用自回归监督学习将单任务RL算法的（子采样）轨迹蒸馏为任务无关模型。虽然DPT也利用自回归监督学习，但并不蒸馏现有的RL算法以模仿学习方式。相反，我们预训练DPT以预测最佳行动，从而在测试时产生潜在的自发在线和离线策略，自动利用任务结构，表现得类似于后验采样。

自回归transformer在决策中的应用
在强化学习和模仿学习等决策领域，使用自回归监督行动预测训练的transformer模型得到了广泛应用，这些技术的成功受到大型语言模型的启发。例如，决策transformer（DT）使用transformer自回归地模型化来自离线经验数据的行动序列，基于实现的回报进行条件建模。在推理过程中，可以根据期望回报值查询模型。该方法在大规模模型和多任务设置中表现出良好的扩展性，有时甚至超过了基于transformer的大规模多任务模仿学习的性能。然而，DT在常见场景下被证明是可推导的（且无界）次优。对DT及一般监督学习transformer的一个常见批评是它们无法改善数据集。例如，如果条件回报高于训练中观察到的任何值，DT很少能够输出有意义的行为，除非有强的外推假设。相较之下，我们工作的一个重要贡献是提供了理论和实证证据，证明DPT能够在遗憾方面改善数据集中看到的行为。

基于价值和策略的离线强化学习
离线RL算法提供了从现有数据集中学习的机会。为了应对分布转移，许多先前的算法结合了价值悲观原则或策略正则化。为了减少新任务所需的离线数据量，离线元RL的方法可以重用在一组相关任务中收集的交互。然而，它们仍需解决分布转移的问题，通常需要策略正则化或额外的在线交互。DPT遵循了像DT和AD这样的自回归模型的成功，避免了这些问题。通过我们的预训练目标，DPT在新任务中比AD更有效地利用离线数据集。

3 上下文学习模型

基本决策模型
我们研究的基本决策模型是有限时域马尔可夫决策过程（MDP）。一个MDP由元组 $τ=⟨S,A,T,R,H,ρ⟩\tau = ⟨S, A, T, R, H, \rho⟩$ 指定，其中 S 是状态空间，A 是行动空间， $\times A \to \Delta(S)$ 是转移函数， $\times A \to \Delta(R)$ 是奖励函数， $\in N$ 是时域长度， $\in \Delta(S)$ 是初始状态分布。学习者通过以下协议与环境交互：(1) 从 $ρ\rho$ 中随机采样初始状态 s1；(2) 在时间步 h，学习者选择行动 $a_h$ ，转移到状态 $sh+1∼T(⋅∣sh,ah)s_{h+1} \sim T(\cdot \mid s_h, a_h)$ ，并接收奖励 $rh∼R(⋅∣sh,ah)r_h \sim R(\cdot \mid s_h, a_h)$ 。该回合在 H 步后结束。策略 $π\pi$ 将状态映射到行动的分布，并可用于与MDP交互。我们将最优策略记作 $π⋆\pi^\star$ ，它最大化值函数 $(\pi^\star) = max_{\pi} V (\pi) := max_{\pi} E_{\pi}\sum_h r_h$ 。在必要时，我们使用下标 $τ\tau$ 来区分特定MDP $τ\tau$ 的 $VτV_{\tau}$ 和 $πτ⋆\pi_{\tau}^{\star}$ 。我们假设状态空间按 $\in [H]$ 划分，使得 $π⋆\pi^{\star}$ 在符号上与 h 独立。注意，这一框架包括多臂老虎机设置，其中状态空间为单个点，例如 S = {1}，H = 1，且最优策略为 $a⋆∈argmaxa∈AE[r1∣a1=a]a^{\star} \in argmax_{a \in A} E [r1\mid a1 = a]$ 。
在这里插入图片描述

预训练
我们在算法1中给出了伪代码，并在图1中进行了可视化。设 $Tpre\mathcal{T}_{\text {pre}}$ 为预训练时任务的分布。任务 $\tau \sim \mathcal{T}_{\text {pre }}$ 可以视为一个MDP的规范， $τ=⟨S,A,T,R,H,ρ⟩\tau = ⟨S, A, T, R, H, \rho⟩$ 。分布 $Tpre\mathcal{T}_{\text {pre}}$ 可以跨越不同的奖励和转移函数，甚至不同的状态和行动空间。然后，我们从 $\sim \mathcal{D}_{\text {pre}}(\cdot ; \tau)$ 中采样一个上下文（或提示），它由学习者与指定 $τ\tau$ 的MDP之间的交互数据集 D 组成。 $\{s_j, a_j, s^{'}_{j}, r_j\}_{j\in[n]}$ 是在 $τ\tau$ 中采集的转移元组的集合。我们将 D 称为上下文数据集，因为它提供了关于 $τ\tau$ 的上下文信息。D 可以通过多种方式生成，例如：(1) 在 $τ\tau$ 中进行随机交互，(2) 来自专家的示范，以及 (3) 算法的回放。此外，我们从状态分布 $D_{query}$ 中独立采样一个查询状态 $s_{query}$ ，并从最优策略 $πτ⋆(⋅∣squery)\pi_{\tau}^{\star}(\cdot \mid s_{query})$ 中采样一个标签 $a⋆a^{\star}$ （有关如何在常见实践场景中实现这一点，请参见第5.3节）。我们将关于任务、上下文数据集、查询状态和行动标签的联合预训练分布记为 $P_{pre}$ ：
$P_{pre}(\tau, D, s_{query}, a^{\star}) = \mathcal{T}_{\text {pre}}(\tau) \mathcal{D}_{\text {pre}}(D; \tau) D_{query}(s_{query}) \pi_{\tau}^{\star}(a^{\star}|s_{query})$

在给定上下文数据集 D 和查询状态 squery 的情况下，我们可以通过简单的监督学习训练模型以预测最佳行动 $a⋆a^{\star}$ 。令 $Dj={(s1,a1,s1′,r1),…,(sj,aj,sj′,rj)}D_j = \{(s_1, a_1, s^{'}_{1}, r_1), \dots, (s_j, a_j, s^{'}_{j}, r_j)\}$ 为直到 j 样本的部分数据集。正式而言，我们的目标是训练一个由 $θ\theta$ 参数化的因果 GPT-2 transformer模型 M，该模型输出一个行动分布 A，以最小化预训练分布中样本的期望损失：
$\min_θ E_{Ppre} \sum_{j∈[n]} \ell(M_{\theta}(\cdot \mid s_{query}, D_j), a^{\star})$
通常，我们将损失设为负对数似然，定义为 $ℓ(Mθ(⋅∣squery,Dj),a⋆):=−logMθ(⋅∣squery,Dj)\ell(M_{\theta}(\cdot \mid s_{query}, D_j), a^{\star}) := − log M_{\theta}(\cdot \mid s_{query}, D_j)$ 。该框架适用于离散和连续的 A。在我们对离散 A 的实验中，我们使用 softmax 参数化 $MθM_{\theta}$ 的分布，基本上将其视为一个分类问题。最终输出模型 $MθM_{\theta}$ 可以看作是一个算法，输入交互数据集 D，并通过输入查询状态 $s_{query}$ 来进行前向推断以预测最佳行动。我们将训练得到的模型 $MθM_{\theta}$ 称为决策预训练transformer（DPT）。

测试
预训练完成后，从测试任务分布 $T_{test}$ 中采样一个新任务（MDP） $τ\tau$ 。如果 DPT 要进行离线测试，则数据集（提示）为采样的 $\sim D_{test}(\cdot ; \tau)$ ，模型在上下文中学习的策略条件为 $Mθ(⋅∣⋅,D)M_{\theta}(\cdot \mid \cdot, D)$ 。具体而言，我们通过在学习者访问状态 $s_h$ 时选择行动 $ah∈argmaxaMθ(a∣sh,D)a_h \in argmax_a M_{\theta}(a \mid s_h, D)$ 来评估该策略。如果模型需要通过多个交互回合进行在线测试，则数据集初始化为空 D = {}。在每个回合中，使用 $Mθ(⋅∣⋅,D)M_{\theta}(\cdot \mid \cdot, D)$ 部署模型，在观察到状态 $s_h$ 后进行采样 $ah∼Mθ(⋅∣sh,D)a_h \sim M_{\theta}(\cdot | s_h, D)$ 。在完整回合中，收集交互 $,sH,aH,rH}\{s_1, a_1, r_1, \cdots, s_H, a_H, r_H\}$ ，随后将其附加到 D。模型然后重复该过程，进行多个回合，直到达到规定的回合数。

测试阶段的一个关键区别在于，模型 $MθM_{\theta}$ 的参数不会更新。这与手工设计的 RL 算法形成对比，后者会使用 D 进行参数更新或统计维护以从头学习。相反，模型 $MθM_{\theta}$ 通过其前向推断计算生成一个基于上下文 D 和查询状态 $s_h$ 的行动分布。

分布不匹配的来源
在预训练过程中，几乎所有基础模型都存在下游测试任务的分布不匹配。DPT 在足够多样化的数据上进行预训练，理想情况下应能在某种程度上对这些不匹配保持鲁棒性。(1) 部署时， $MθM_{\theta}$ 将执行其学习到的策略，这不可避免地会引发与 $D_{query}$ 不同的状态分布。(2) 预训练 $Tpre\mathcal{T}_{\text {pre}}$ 可能与下游 $Ttest\mathcal{T}_{\text {test}}$ 不同。(3) 同样，测试时间的数据集提示也可能有所不同，特别是在在线情况下，它们是由 $MθM_{\theta}$ 自身收集的。

4 多臂老虎机中的学习

我们首先对 DPT 在多臂老虎机中的表现进行实证研究，这是一种广泛研究的 MDP 特殊情况，其中状态空间 S 是单一元素，时域 H = 1 为单步。我们将考察 DPT 在从历史离线数据中选择良好行动和从头开始最大化累计奖励的在线学习中的表现。离线时，考虑到噪声引起的不确定性至关重要，因为某些行动可能未被充分采样。在线时，明智地平衡探索与利用以最小化整体遗憾同样至关重要。有关实验设置的详细描述，请参见附录 A。

预训练分布
对于预训练任务分布 $Tpre\mathcal{T}_{\text {pre}}$ ，我们采样 5 臂老虎机（ $∣A∣=5\left | A \right | = 5$ ）。臂 a 的奖励函数为正态分布 $R(⋅∣s,a)=N(μa,σ2)R(\cdot \mid s, a) = \mathcal{N}(\mu_a, \sigma^2)$ ，其中 $μa∼Unif[0,1]\mu_a \sim Unif[0, 1]$ 独立且 $σ=0.3\sigma = 0.3$ 。为了生成上下文数据集 $Dpre\mathcal{D}_{\text {pre}}$ ，我们随机生成行动频率，通过从 Dirichlet 分布中采样概率，并将其与一个随机臂的点质量分布混合（详细信息见附录 A.3）。然后，我们根据该分布相应地采样行动。这鼓励了上下文数据集的多样性。对于老虎机 $τ\tau$ 的最优策略 $πτ⋆\pi_{\tau}^{\star}$ 为 $argmaxaμaargmax_a\mu_a$ ，我们可以在预训练期间轻松计算。我们预训练模型 $MθM_{\theta}$ 以从 D 中预测 $a⋆a^{\star}$ ，如第 3 节所述，对于数据集规模可达 n = 500。

比较
我们与几种著名的多臂老虎机算法进行比较。所有算法都是基于观察结果以特定方式推理不确定性而设计的。

经验均值算法（Emp）：简单地选择具有最高经验均值奖励的行动。
上置信界（UCB）：选择具有最高上置信界的行动。
下置信界（LCB）：选择具有最高下置信界的行动。
汤普森采样（TS）：从奖励模型的后验分布中选择具有最高采样均值的行动。先验和似然函数均为高斯分布。

Emp 和 TS 可以用于离线或在线学习；UCB 以确保通过不确定性下的乐观探索而被证明在在线学习中是最优的；而 LCB 则用于通过悲观选择行动以最小化给定离线数据集的次优性。我们使用标准的多臂老虎机指标来评估算法。离线时，我们使用次优性 $μa⋆−μa^\mu_a^\star − \mu_{\hat{a}}$ ，其中 $a^\hat{a}$ 是选择的行动。在线时，我们使用累计遗憾： $∑k(μa⋆−μa^k)\sum_k (\mu_a^\star − \mu_{\hat{a}_k})$ ，其中 $a^k\hat{a}_k$ 是第 k 次选择的行动。

DPT 学会通过不确定性推理
在这里插入图片描述

如图 2a 所示，在离线设置中，当上下文数据集从与预训练相同的分布中采样时，DPT 的表现显著超过了 Emp 和 LCB，并与 TS 的表现相当。这些结果表明，transformer能够推理由数据集中噪声奖励引起的不确定性。与 Emp 不同，后者可能会被噪声和欠采样的行动所欺骗，而transformer在一定程度上学会了对冲。然而，这也表明，这种对冲在本质上与 LCB 的做法是不同的，至少在这个特定分布中是如此。

有趣的是，当采样行动而不是取 argmax 时，同一transformer产生了一个非常有效的在线老虎机算法。如图 2b 所示，DPT 的表现与专门为探索而设计的经典最优算法 UCB 和 TS 相匹配。这一点值得注意，因为 DPT 并未明确训练以进行探索，但其自发策略与一些最佳算法相当。在图 2c 中，我们展示了这一特性对在预训练期间未见的奖励噪声的鲁棒性，通过改变标准差。在附录 B 中，我们展示了这种泛化也在线下发生，甚至在未见的伯努利奖励中。

利用次优数据的结构
我们现在调查 DPT 是否能够学习利用问题类别的固有结构，即使在没有该结构的先验知识的情况下，且即使在从不明确利用该结构的上下文数据集中学习时。更具体地，我们考虑 Tpre 为线性老虎机的分布，其中奖励函数为 $\mid a, \tau] = ⟨\theta_\tau, \phi(a)⟩，\theta_\tau \in R^d$ 是任务特定的参数向量， $ϕ:A→Rd\phi : A \to R^d$ 是对所有任务均相同的固定特征向量。考虑到特征表示 $ϕ\phi$ ，LinUCB 是一种 UCB 风格的算法，它利用 $ϕ\phi$ ，应在 K 步中达到遗憾 $O~(dK)\widetilde{\mathcal{O}}(d \sqrt{K})$ ，相比于 UCB 和 TS 在 $\ll \left | A \right |$ 时有显著提升。在这里，我们使用通过 TS 收集的上下文数据集对 DPT 模型进行预训练，后者并未利用线性结构。图 3a 和 3b 显示 DPT 能够利用未知的线性结构，基本上学习了 $ϕ\phi$ 的替代物，从而使在线探索和离线决策更具信息性。它几乎与 LinUCB（已提供 $ϕ\phi$ ）相当，并显著超越了数据集来源 TS，后者并不知道或使用该结构。这些结果证明了 (1) DPT 能够自动利用结构，以及 (2) 基于监督学习的 RL 方法能够学习超越其预训练数据质量的新型探索。

在这里插入图片描述

适应专家偏置数据集
在离线 RL 中，一个常见的假设是数据集往往是最佳数据（例如专家示范）和次优数据（例如随机交互）的混合。因此，LCB 在实践中通常有效，预训练和测试分布应偏向于这种设置。基于此，我们预训练了第二个 DPT 模型，其中 Dpre 是通过将上下文数据集与不同比例的专家数据混合生成的，从而使 Dpre 偏向于包含更多最优行动示例的数据集。我们将该模型称为 DPT-Exp。在图 3c 中，我们绘制了在新离线数据集上评估两个预训练模型的测试时间表现，这些数据集具有不同的专家数据百分比。我们的结果表明，当预训练分布也偏向于专家-次优数据时，DPT-Exp 的表现类似于 LCB，而 DPT 则继续类似于 TS。这一点相当有趣，因为对于其他方法（如 TS），如何自动纳入适当的专家偏差以产生相同效果的方式并不明确，但 DPT 能够从预训练中利用这一点。

5 在马尔可夫决策过程中的学习

我们接下来研究 DPT 如何应对马尔可夫决策过程，测试其在探索和信用分配方面的能力。在以下实验中，DPT 展示了对新任务的泛化能力、对基于图像的观察的可扩展性，以及在上下文行为中拼接的能力（第 5.2 节）。本节还探讨了 DPT 是否可以使用由不同 RL 算法生成的数据集和行动标签进行预训练，而不是使用确切的最优策略（第 5.3 节）。
在这里插入图片描述

5.1 实验设置

环境
我们考虑需要针对性探索以解决任务的环境。第一个环境是 Dark Room，这是一个 2D 离散环境，智能体必须在 10 × 10 的房间中定位未知的目标位置，只有在目标位置时才能获得 1 的奖励。我们保留一组目标用于泛化评估。我们的第二个环境是 Miniworld，这是一个 3D 视觉导航问题，用于测试 DPT 对图像观察的可扩展性。智能体处于一个有四个不同颜色箱子的房间中，必须找到目标箱子，其颜色在初始时对智能体是未知的。只有在靠近正确的箱子时，它才能获得 1 的奖励。有关这些环境和预训练数据集的详细信息，请参见附录 A.4 和 A.5。

比较
我们的实验旨在理解 DPT 与其他基于上下文的元 RL 算法的有效性。为此，我们将其与基于监督和 RL 目标的元 RL 算法进行比较。

近端策略优化（PPO）：我们将其与这一单任务 RL 算法进行比较，该算法从头开始训练，没有任何预训练数据，以便为 DPT 和其他元 RL 算法的性能提供背景。
算法蒸馏（AD）：AD 首先通过在每个训练任务中运行 RL 算法生成学习历史数据集。然后，给定学习历史中的一个采样子序列 hj = (sj, aj, rj, …, sj+c)，训练一个transformer以预测学习历史中的下一个行动 aj+c。
RL²：这一在线元 RL 比较使用递归神经网络根据给定上下文适应智能体的策略。与 AD 和 DPT 不同，后者是通过监督目标进行训练，而 RL² 智能体则被训练以最大化与 PPO 相同的预期回报。

PPO 和 RL² 是在线算法，而 AD 能够进行离线和在线学习。有关这些算法实现的详细信息可见附录 A.2。

5.2 主要结果

泛化到新的离线数据集和任务
为了研究 DPT 的泛化能力，我们在 Dark Room 中对一组 20 个未包含在预训练数据集中的目标进行了评估。当给定专家数据集时，DPT 达到了近乎最优的表现。即使在给定随机数据集（平均总奖励为 1.1）时，DPT 也获得了 61.5 的更高平均回报（见图 4a）。定性观察表明，当上下文数据集中包含转移到目标的路径时，DPT 会立即利用这一点并直接朝目标移动。相比之下，虽然 AD 在专家数据上表现出强大的离线性能，但在随机数据的上下文学习中表现不如 DPT。这个差异源于 AD 被训练以推断出比上下文数据更好的策略，但不一定是最优的。

接下来，我们在线评估 DPT、AD、RL² 和 PPO，未使用 20 个测试任务的任何先前数据（见图 4b）。经过 40 个回合后，PPO 对目标没有显著进展，突显了单靠如此少的交互进行学习的困难。RL² 被训练在每个长度为 100 的四个回合内执行适应，我们报告了四个适应回合后的表现。值得注意的是，DPT 平均每个任务解决得比 AD 更快，并且最终回报高于 RL²，展示了其在 MDP 中有效探索的能力。在附录 B 中，我们还展示了对新动态的泛化结果。

从基于图像的观察中学习
在 Miniworld 中，智能体接收 25 × 25 像素的 RGB 图像观察。如图 4d 所示，DPT 可以通过随机和专家数据集离线解决这一高维任务。与 AD 和 RL² 相比，DPT 在线学习的效率也更高。

从上下文子序列拼接新轨迹
某些离线 RL 算法的一个理想特性是能够将离线数据集中次优的子序列拼接成新的具有更高回报的轨迹。为了测试 DPT 是否具有拼接能力，我们设计了 Dark Room（三个任务）环境，其中有三个可能的任务。预训练数据仅由其中两个的专家示范组成。在测试时，DPT 在第三个未见任务上进行评估，但其离线数据集仅包含原始两个任务的专家示范。尽管如此，它利用这些数据推断解决第三个任务的路径（见图 5a）。

5.3 从算法生成的策略和回放中学习

到目前为止，我们只考虑了由最优策略提供的行动标签。然而，在某些任务中，即使在预训练期间也并不总是能够获得最优策略。在本实验中，我们使用通过 PPO 学习的策略标记的行动以及从 PPO 回放缓冲区采样的上下文数据集。我们在每个 80 个训练任务中训练 PPO 智能体 1K 回合，以生成 80K 总回放，从中采样上下文数据集。这种变体 DPT (PPO, PPO) 的表现与 DPT 相当，仍然优于 AD，如图 5b 和 5c 所示。DPT (PPO, PPO) 可以被视为在相同的预训练数据下，我们的预训练目标与 AD 的直接比较，但使用不同的方法。我们还评估了一种变体 DPT (Rand, PPO)，它在随机上下文数据集上进行预训练（类似于 DPT），但仍使用 PPO 行动标签。在某些设置中，其表现比其他 DPT 变体稍差，但差异很小。在附录 B 中，我们分析了 DPT 对其他超参数（如上下文大小和预训练数据量）的敏感性。

第六章理论

我们现在通过理论分析阐明之前实证结果的观察。我们的主要结果表明，DPT（在稍微修改预训练的情况下）本质上执行上下文后验采样（PS）。PS 是MDP中强化学习的汤普森采样的推广。它在给定历史数据D的情况下，维护并从任务τ的后验中抽样，并执行最优策略 $πτ⋆\pi_\tau^\star$ （详见附录C）。它在理论上是样本高效的，并具有在线贝叶斯遗憾保证[12]，但维护后验通常在计算上是不可行的。DPT能够在上下文中执行PS，暗示了一条通往计算和理论上样本高效的强化学习的路径，前提是从数据中学习先验。

6.1 依赖历史的预训练与假设

我们首先对DPT的预训练进行修改。我们提出不仅仅根据 $s_{query}$ 和D来预测 $a⋆∼πτ⋆(⋅∣squery)a^\star \sim \pi_\tau^\star(\cdot \mid s_{query})$ ，还提出根据序列 $ξh=(s1:h,a1:h⋆)\xi_h = (s_{1:h}, a^\star_{1:h})$ 进行条件化，其中 $s1:h∼ðh∈Δ(Sh)s_{1:h} \sim \eth_h \in \Delta(S^h)$ 是一个状态集的分布，与 $τ\tau$ 无关，且 $ah′⋆∼πτ⋆(⋅∣sh′)a^\star_{h^{'}} \sim \pi_\tau^\star(\cdot \mid s_{h^{'}})$ ，对于 $h′∈[h]h^{'} \in [h]$ 。因此，我们使用 $πτ⋆\pi_\tau^\star$ 来标记查询状态（这是预测标签）和从 $S_h$ 中抽样的状态序列。请注意，这不需要任何环境交互，因此不需要从 $TτT_\tau$ 或 $RτR_\tau$ 中抽样。在测试时，在步骤h，这将允许我们根据 $MθM_\theta$ 访问的状态历史 $ξh−1\xi_{h−1}$ 以及在这些状态下采取的行动进行条件化。正式地，给定D，学习到的 $MθM_\theta$ 被部署如下：（1）在h = 0时，初始化 $ξ0=()\xi_0 = ()$ 为空；（2）在步骤h，访问 $s_h$ 并通过从 $Mθ(⋅∣squery,D,ξh−1)M_\theta(\cdot \mid s_{query}, D, \xi_{h−1})$ 中抽样找到 $a_h$ ；（3）将 $s_h, a_h)$ 附加到 $ξh−1\xi_{h−1}$ 以获得 $ξh\xi_h$ 。注意，对于赌博者和上下文赌博者（H = 1），这与先前部分的原始预训练过程没有区别，因为 $ξ0\xi_0$ 是空的。对于MDP，原始DPT可以视为一种方便的近似。

我们现在做几个假设以简化分析。首先，假设 $D_{query}$ 、 $D_{pre}$ 和S具有足够的支持，以使得所有条件概率 $P_{pre}$ 是良好定义的。类似于其他上下文学习的研究[64]，我们假设 $MθM_\theta$ 完全适应预训练分布，具有足够的覆盖和数据，因此分析的重点只是上下文学习能力。

假设 1 （学习模型是一致的）。设Mθ表示预训练模型。对于所有 $(squery,D,ξh)(s_{query}, D, \xi_h)$ ，我们有 $Ppre(a∣squery,D,ξh)=Mθ(a∣squery,D,ξh)P_{pre}(a\mid s_{query}, D, \xi_h) = M_\theta(a \mid s_{query}, D, \xi_h)$ 对于所有 $\in A$ 。

为了提供一些初步的理由，如果 $MθM_\theta$ 是(2)的全局最小化器，则

$\mathbb{E}_{Ppre} \|Ppre(·|squery, D, ξh) - Mθ(·|squery, D, ξh)\|^2_1 \to 0$

对于复杂度有界的变换器模型类别（见命题C.1）。上述假设的近似版本很容易可能，但会掩盖分析的关键要素。我们还假设上下文数据集 $D ∼ D_{pre}$ 是合规的[59]，这意味着D中的动作只能依赖于观察到的历史，而不依赖于额外的混杂因素。请注意，这仍然允许 $D_{pre}$ 非常通用——它可以随机生成或来自PPO或TS等自适应算法。

定义 6.1 （合规性）。上下文数据集分布 $Dpre(⋅;τ)D_{pre}(\cdot; \tau)$ 是合规的，如果对于所有 $\in [n]$ ，数据集的第i个动作ai在给定第i个状态 $s_i$ 和部分数据集 $D_{i−1}$ 的情况下，与 $τ\tau$ 条件独立。换句话说，分布 $Dpre(ai∣si,Di−1;τ)D_{pre}(a_i \mid s_i, D_{i−1}; \tau)$ 对于 $τ\tau$ 是不变的。

一般来说， $D_{pre}$ 可以影响 $MθM_\theta$ 。在命题6.4中，我们表明所有合规的 $D_{pre}$ 形成一种等价类，生成相同的 $MθM_\theta$ 。为了简化，接下来我们假设所有的 $D_{pre}$ 都是合规的。

6.2 主要结果

DPT与PS的等价性

我们现在陈述我们的主要结果，表明预训练的Mθ生成的轨迹将遵循与良好指定的PS算法相同的分布。特别地，设PS使用良好指定的先验 $Tpre\mathcal{T_{pre}}$ 。让 $τc\tau_c$ 是一个任意任务。让 $Pps(⋅∣D,τc)P_{ps}(\cdot \mid D, \tau_c)$ 和 $PMθ(⋅∣D,τc)P_{M_\theta}(\cdot \mid D, \tau_c)$ 分别表示在给定历史数据D的任务 $τc\tau_c$ 中，通过运行PS和 $Mθ(⋅∣⋅,D,⋅)M_\theta(\cdot \mid \cdot, D, \cdot)$ 生成的轨迹 $ξH∈(S×A)H\xi_H \in (S \times A)^H$ 的分布。

定理 1 （DPT ⇐⇒ PS）。设上述假设成立。那么，对于所有轨迹ξH，

$P_{ps}(\xi_H \mid D, \tau_c) = P_{M_\theta}(\xi_H \mid D, \tau_c)$

遗憾的影响

为了解释这一结果，让我们专注于有限MDP的设置[12]。假设我们在MDP的分布 $Tpre\mathcal{T_{pre}}$ 上预训练 $MθM_\theta$ ，且S := |S|和A := |A|。让 $D_{pre}$ 通过均匀抽样 $s_i, a_i)$ 和观察 $r_i, s_i^{'})$ 构建，其中 $\in [KH]$ 。设 $[r_h \mid s_h, a_h] \in [0, 1]$ 。并让 $D_{query}$ 和 $S_h$ 在S和 $S_h$ 上均匀分布（对于所有h）。最后，设 $Ttest\mathcal{T_{test}}$ 是具有相同基数的测试任务的分布。对于任务 $τ\tau$ ，定义DPT在K个回合上的在线累积遗憾为

$Regτ(Mθ):=∑k∈[K]Vτ(πτ⋆)−Vτ(π^k) \text{Reg}_\tau(M_\theta) := \sum_{k \in [K]} V_\tau(\pi_\tau^\star) - V_\tau(\hat{\pi}_k)$

其中 $πk^(⋅∣sh)=Mθ(⋅∣sh,D(k−1),ξh−1)\hat{\pi_k}(\cdot \mid s_h) = M_\theta(\cdot \mid s_h, D(k−1), \xi_{h−1})$ ，且 $D (k)$ 包含从 $π^1:k\hat{\pi}_{1:k}$ 收集的前k个回合。

推论 6.2 （有限MDP）。假设存在常数C > 0使得

$\sup_\tau \frac{\mathcal{T_{test(\tau)}}}{\mathcal{T_{pre(\tau)}}} \leq C$

在上述MDP设置下，预训练模型 $MθM_\theta$ 满足

$\mathbb{E}_{\mathcal{T_{test}}}[\text{Reg}_\tau(M_\theta)] \leq \mathcal{O}(\mathcal{C} H^{3/2} S \sqrt{A K})$

由于[65]的类似分析允许我们证明为什么在（潜在）线性赌博者上预训练可以带来实质性的经验收益，即使上下文数据集是由不知情的算法生成的。我们在第4节中实证观察到这一点。考虑与此类似的设置，其中S是单例，A是有限但大的， $θτ∈Rd\theta_\tau \in R^d$ 被抽样为 $θτ∼N(0,I/d)\theta_\tau \sim N(0, I/d)$ ， $ϕ:A→Rd\phi : A \to R^d$ 是满足 $supa∈A∥ϕ(a)∥2≤1sup_{a \in A} \|\phi(a)\|_2 ≤ 1$ 的固定特征映射，且任务 $τ\tau$ 中 $\in A$ 的奖励分布为 $N(⟨θτ,ϕ(a)⟩,1)\mathcal{N}(⟨\theta_\tau, \phi(a)⟩, 1)$ 。这次，我们让 $Dpre(⋅;τ)D_{pre}(\cdot; \tau)$ 通过在 $τ\tau$ 上运行汤普森采样与高斯先验和似然函数生成。

推论 6.3 （线性赌博者中的潜在表示学习）。在上述线性赌博者设置中，当 $Ttest=Tpre\mathcal{T}_{test} = \mathcal{T}_{pre}$ 时， $MθM_\theta$ 满足

$\mathbb{E}_{\mathcal{T}_{test}}[\text{Reg}_\tau(M_\theta)] \leq \mathcal{O}(d \sqrt{K})$

这显著优于不利用线性结构的TS的 $O~(∣A∣K)\widetilde{\mathcal{O}}(\sqrt{|A|K})$ 的上界遗憾。这突显了DPT在未来的赌博问题上可以具有理论上更紧的上界，超过用于生成其（预训练）数据的算法。请注意，如果任务中存在额外结构，能够产生更紧的遗憾界限（例如，如果已知的MDP在可能分布中只有有限的数量），那么可能会进一步改善性能，例如通过消除对问题有限状态、动作或完整的d维表示的依赖。

$MθM_\theta$ 对合规 $D_{pre}$ 的不可变性

我们的最终结果阐明了Dpre如何影响最终的DPT行为Mθ。结合假设1，Mθ对满足定义6.1的Dpre是不变的。

命题 6.4。设 $P_{pre}^1$ 和 $P_{pre}^2$ 是仅通过其上下文数据集分布 $Dpre1D^1_{pre}$ 和 $Dpre2D^2_{pre}$ 不同的预训练分布。如果 $Dpre1D^1_{pre}$ 和 $Dpre2D^2_{pre}$ 是合规的，且支持相同，则对于所有 $a⋆a^\star$ 、 $s_{query}$ 、 $D$ 、 $ξh\xi_h$ 都有：

$P_{pre}^1(a^\star \mid s_{query}, D, \xi_h) = P_{pre}^2(a^\star \mid s_{query}, D, \xi_h)$

也就是说，如果我们通过运行仅依赖于当前任务中观察到的数据的各种算法生成上下文数据集D，我们将得到相同的 $MθM_\theta$ 。例如，可以使用TS来构建 $Dpre1D^1_{pre}$ ，而使用PPO来构建 $Dpre2D^2_{pre}$ 。第4节讨论的专家偏见数据集违反了定义6.1，因为使用了对τ的特权知识。这有助于解释我们实证结果，即在专家偏见数据集上进行预训练会在测试时导致定性不同的学习模型。

第七章讨论

在本文中，我们研究了上下文决策的问题。我们引入了一种新的预训练方法和变换器模型DPT，该模型通过监督学习进行训练，以根据上下文数据集中的交互预测最优动作。通过对经典赌博者和MDP中的决策问题进行深入评估，我们展示了这一简单目标自然地催生了一种上下文强化学习算法，能够进行在线探索和离线决策，这与其他显式训练或设计用于此目的算法不同。我们的实证和理论结果为理解DPT所带来的这些能力及其成功所需的重要因素迈出了第一步。预训练的固有优势在于其简单性——我们可以避免手动设计强化学习算法中探索或保守性的复杂性，同时允许变换器推导出最佳利用问题结构的新策略。这些发现突显了监督预训练在赋予变换器模型上下文决策能力方面的潜力。

限制与未来工作

DPT的一个限制是预训练时需要最优动作。经验上，我们发现可以通过使用另一个强化学习训练的代理生成的动作来放宽这一要求，这仅导致性能的轻微损失。然而，完全理解这个问题以及如何最好地利用多任务决策数据集仍然是一个关键的开放问题。我们还讨论了MDP的实际实现与真实后验采样之间的区别。未来进一步理解并弥合这一经验-理论差距将是有趣的。我们还注意到，初步分析显示DPT在其预训练分布之外的任务中具有泛化的潜力。这表明，在预训练过程中多样化任务分布可能显著增强模型对新任务的泛化能力。这一可能性为未来的研究提供了一个令人兴奋的方向。最后，还需进一步研究这些发现对现有基础模型（如指令微调模型）的影响，这些模型在决策设置中越来越多地被部署[66]。