持续学习大模型：收藏必备，小白也能轻松入门

大模型持续学习能力是通用人工智能的关键，但训练中易出现灾难性遗忘。本文介绍了持续学习的实验框架和技术，如回放机制、知识蒸馏等，并重点分析了强化学习在持续学习中的优势，包括其天然缓解遗忘的能力，以及如何通过在线策略数据提升模型的泛化能力。文章还探讨了监督微调和强化学习在持续学习中的表现差异，并指出强化学习在适应新任务的同时，能更好地保留已有能力，对通用人工智能的实现具有重要意义。

m0_63171455

479人浏览 · 2026-02-14 17:02:06

m0_63171455 · 2026-02-14 17:02:06 发布

探索强化学习训练中令人瞩目的持续学习能力

作者：Cameron R. Wolfe

日期：2026 年 1 月 26 日

原文链接：https://cameronrwolfe.substack.com/p/rl-continual-learning

本文由大模型全文精译，和通AI编译发布

持续学习指人工智能模型随时间从新任务与新数据中学习的能力，现已成为通用人工智能（AGI）讨论中的热门话题。简单来说，通用智能应具备适应性，这使得部分研究者认为持续学习能力是通用人工智能的前提条件。这一观点背后的逻辑显而易见 —— 动态适应任意任务（即 “在岗” 学习）是人类的普遍特征，但严谨研究这一概念却十分困难。在现实世界中，持续学习具有非结构化、噪声多、无终点的特点。想要取得有意义的进展，我们必须将这一复杂过程转化为更结构化的实验场景。

“大语言模型不会像人类一样随时间不断进步。缺乏持续学习能力是一个极其严重的问题。大语言模型在许多任务上的基础表现可能高于普通人类，但我们无法向模型提供高层级反馈，只能使用模型出厂时就具备的能力。”—— 德瓦凯什・帕特尔

为此，我们可以借鉴数十年来针对神经网络持续学习的已有研究 [10]。尽管这类研究大多早于大语言模型出现，却为持续学习奠定了基础认知，并解答了在当下依然相关的关键问题：

为何持续学习难度极高？
应如何构建持续学习实验框架？
哪些技术在实践中切实有效？

本文将把数十年的持续学习研究与近年大语言模型相关工作相结合，形成对该领域的全面视角。虽然核心概念（如灾难性遗忘、实验框架、方法分类等）可直接沿用，但大语言模型的持续学习因规模问题具有独特性。当考虑现代大语言模型的海量数据与先验知识时，即便是简单技术也会演变为复杂的系统问题。不过我们将会了解到，持续学习与当前大语言模型研究并非割裂。相反，现有的后训练技术—— 尤其是在线策略强化学习（RL）—— 能够自然缓解灾难性遗忘，这让我们看到：沿着当前大语言模型的研究路线，实现持续学习并非遥不可及。

持续学习基础

大语言模型训练流程

持续学习范式与神经网络的常规训练方式—— 在大规模固定数据集上训练多个轮次 —— 截然不同。现代大语言模型训练流程已融合离线训练与更具迭代性的组件。部分阶段（如预训练）与经典离线训练高度相似，而其他阶段（如迭代式基于人类反馈的强化学习或在线强化学习）则开始体现持续学习的特征。本节将建立对持续学习的基础认知：其研究方式、常用实验框架，以及面向大语言模型与通用神经网络提出的主流方法类别。

灾难性遗忘

从历史来看，持续学习的难点并非模型无法学习新任务，而是在新数据上训练时，模型在旧任务上的表现容易退化。例如，在新数据集上对大语言模型进行监督训练，会快速提升其在域内的表现，但同一模型在通用基准测试或训练过程中已见过的任务上，表现可能显著下降。

“新学习对旧知识的破坏是采用分布式表示的联结主义模型的公认特征。然而，这种干扰有时被描述为轻微或易于避免。或许正因如此，这一干扰现象受到的关注少得惊人，其对人类认知联结主义建模的意义也未得到系统性探索。”—— 引自 [10]

在持续学习研究中，这一现象被称为灾难性遗忘[11]。在新数据上训练模型，往往会以其他任务表现大幅 —— 甚至灾难性 —— 下降为代价。因此，该领域的研究目标就是缓解灾难性遗忘。下图有助于我们更好地理解这一现象：模型先在任务 A（灰色）上完成初始训练，再接触新任务（黄色）。

图中三支箭头代表解决持续学习问题时可能出现的三种方案。红色箭头代表在两项任务上均表现良好的方案，蓝色与绿色箭头则分别代表仅在新任务上表现良好或两项任务均表现不佳的方案。简单来说，持续学习的目标就是研发能稳定遵循红色箭头的技术。更具体地说，一个有效的持续学习系统应同时满足：

在接触到的新任务上表现良好
在先前任务上保持相当（或更优）的表现水平

通读本文后我们会发现，这两个目标通常相互冲突—— 我们需要不断在通用能力与新任务之间做权衡。单纯让模型针对每个新到来的任务进行专精化并非可行方案，因为现实场景中新任务会不断出现。我们必须在保持模型通用性的同时，最大化其对未来任意任务的适应能力。

持续学习实验框架

文献中已研究过多种持续学习变体，如持续学习、终身学习、增量学习、流式学习等。尽管持续学习存在诸多变体，但所有变体都具备训练过程的序列性本质：模型随时间接触新数据，且在学习新数据时无法回溯过往数据（除非明确存储在缓冲区内），如下所示。

非独立同分布数据首先，我们需要考虑模型接触的数据类型。若模型训练所用的增量数据采样自模型的训练分布，那么在这类数据上训练大概率不会引发遗忘。这种设置类似于持续训练方法，常被用于大语言模型的预训练与后训练。然而，若增量数据为非独立同分布—— 即采样自全新或与训练数据分布不同的分布 —— 则灾难性遗忘极有可能发生，如下所示。

因此，大多数持续学习实验框架均采用非独立同分布数据。例如，训练图像分类模型时，可从从未见过的类别中获取输入数据；同理，我们也可以让大语言模型在从未见过的任务上持续训练。两种情况下，我们都会让模型接触从未见过或分布不同的数据，从而可能引发灾难性遗忘。

数据增量接下来我们需要了解持续学习中向模型投喂数据的不同方式。最常见的序列学习设置为批次增量学习，即整批数据依次传入模型。这些批次可任意大（如全新数据集或完整任务），模型通常在每批数据上完成训练后再进入下一批，如下所示。

形式化来说，我们有 T 个任务序列，每个任务对应一个数据集或批次 {D₁, D₂, …, D_T}。模型按顺序在每个任务上依次训练（逐个、按序），在持续学习过程中生成 T 个模型序列。在新任务上训练时，我们无法获取先前任务的数据。批次增量学习最简单的变体是领域自适应设置，其中 T=1。该设置下，预训练模型仅在单一新领域的数据上训练。此场景下持续学习的目标不变，但模型仅经历一轮自适应。

批次增量框架未必总是符合现实，因为模型接收的数据增量可能小得多。这类情况下，流式学习设置可能更合适。流式学习对每条输入数据进行简短的在线更新（即一次或少量前向与反向传播），迫使模型实时学习新数据，如下所示。

基础流式学习设置

与之相对，批次增量学习设置通常对每批输入数据执行完整的离线训练流程（即多轮训练）。尽管流式学习与增量学习设置差异显著，但我们可通过以下方式在两种方法之间进行插值：

改变序列学习每一阶段传入模型的数据量（如单个样本、一批样本、完整数据集等）
限制序列学习每一阶段的模型更新次数（如单次更新、多次更新、完整轮次、多轮次等）

多任务学习为判断持续学习技术是否有效，我们需要一个可对比的基线。常用基线为联合（多任务）训练，即模型可访问全部 T 个任务，并在所有数据上执行离线训练。在所有数据上进行联合训练是最优的训练设置，能帮助我们了解持续学习力求达到的性能上限。

**哪种设置最优？**本文将研究大语言模型领域的多篇持续学习论文。其中大部分采用批次增量学习的变体，每一批为大语言模型必须学习的新任务。基础大语言模型在单一新任务上训练的领域自适应设置也较为常见。这些设置有助于测试大语言模型发生灾难性遗忘的倾向，但也有人认为这类任务增量设置无法反映大语言模型在现实世界中的持续学习方式。因此，不存在最优的持续学习设置。我们应在上述框架内调整实验配置，使其最精准地反映我们试图测试的现实场景。

持续学习常用技术

在对持续学习建立基础认知后，我们可以概述缓解灾难性遗忘的几类核心技术。本文将介绍通用的持续学习方法，并重点标注近年大语言模型持续学习工作中使用的方法。

回放机制（上图所示）是一种简单有效的持续学习技术，通过维护先验数据缓冲区供模型训练使用。样本加入回放缓冲区前，通常会经过筛选（如基于重要性或多样性）[14]，以确保缓冲区包含高质量、有代表性的样本，且体积不会过大。整个回放缓冲区也可进行量化或压缩以减少内存占用 [15]。在无法将数据显式存储在回放缓冲区的场景中，我们还可训练或维护一个生成式代理，来回放合成样本 [16, 17]。

尽管回放缓冲区是最简单有效的持续学习技术之一，但将其应用于大语言模型领域却没那么直接。原因在于，大语言模型拥有海量先验训练数据，且多数情况下这些数据并未公开。因此，构建能覆盖大语言模型通用能力的回放缓冲区并非易事。不过近期已有多项工作探索将回放缓冲区用于持续后训练。例如，指令微调数据体量更易管理，可在持续后训练过程中保留最重要或信息量最大的数据，从而构建回放缓冲区 [30, 31]，如上所示。

知识蒸馏[18] 可通过确保模型表示在持续学习过程中不发生偏移来缓解灾难性遗忘。最简单的基于蒸馏的持续学习技术，仅需将新数据上的训练损失与针对先验模型输出的蒸馏损失相结合 [19]，如上所示。该方法已衍生出多种变体 [12, 20, 22]。需要注意的是，这些技术并非互斥 —— 例如，回放缓冲区可与蒸馏损失结合使用 [13]。

各种形式的正则化对持续学习均有帮助。事实上，知识蒸馏甚至可被视为一种正则化。研究者已探索对参数子集（通常是任务中最重要的参数）[11, 21] 约束权重更新，或提升特定参数的可塑性 [23]。我们也可通过 KL 散度对模型输出分布进行正则化 —— 与 KL 散度用于正则化强化学习目标类似 —— 即便只是降低学习率这类简单调整，也被证实能减少遗忘 [2]。模型融合也与显式正则化结合使用，以减少大语言模型的灾难性遗忘 [29]。

研究者还探索了持续学习的架构方法，即动态调整模型架构以处理输入数据。例如，可向神经网络添加新模块以处理新的数据组 [24]，如上所示。鉴于低秩适配在大语言模型中的普及，近期工作已探索将低秩适配模块作为架构扩展，用于持续学习中的新信息学习 [26, 27]，如下所示。大语言模型的混合专家架构也被证实能更好地避免灾难性遗忘 [28]。

拓展阅读至此我们已全面概览现有持续学习技术，但相关文献体量庞大，最早可追溯至 20 世纪 80 年代（甚至更早）！以下链接资源有助于深入理解持续学习研究：

持续学习技术分类的广泛概述
流式学习技术深度解析
现代生成式代理持续学习综述

大语言模型的持续学习

“令人意外的是，在不使用任何数据回放的情况下，基于强化微调的持续后训练能达到与多任务训练相当的表现，即便为监督微调配备持续学习策略也无法实现这一效果。”—— 引自 [1]

接下来我们将研读多篇研究大语言模型持续学习的论文。不过这些论文并未聚焦持续学习技术本身，而是采用标准大语言模型训练方法—— 尤其是监督微调（SFT）与强化学习（RL）—— 并分析其天然避免灾难性遗忘的能力。尽管监督微调在持续学习中表现通常不佳，但强化学习却被证实对遗忘具有惊人的鲁棒性，即便未采用显式持续学习技术（如回放缓冲区或正则化）。鉴于强化学习在前沿模型训练中的当前热度与影响力，这种处理持续学习的固有能力，使其成为构建通用智能系统的重要工具。

监督微调和强化学习详解

要理解监督微调与强化学习在持续学习场景中的不同表现，我们需要深入了解两种算法背后的学习机制。如需完整概述每种技术，可参考以下资源：

监督微调（SFT）
分组相对策略优化（GRPO）

我们将会看到，本文涉及的所有论文均采用 ** 可验证奖励强化学习（RLVR）** 设置，并以分组相对策略优化作为强化学习优化器。

训练目标监督微调中，我们拥有固定的监督样本数据集，用于训练大语言模型。训练目标旨在最小化模型在该数据集上的负对数似然，如下所示。

监督微调训练目标

与之相对，强化学习采用如下目标：专注最大化从固定数据集中采样的在线策略补全结果的奖励—— 如可验证奖励强化学习中的二元正确性信号。可选地，我们可加入 KL 散度正则化项，对模型产生与参考代理差异显著的输出分布进行惩罚。

前向与反向 KL 散度我们可以通过与 KL 散度的关系来理解监督微调和强化学习的训练目标。形式化来说，KL 散度是衡量两个概率分布差异的指标，完整说明见此处。对于两个概率分布 P 和 Q，我们可定义前向与反向 KL 散度，如下图所示。

在大语言模型领域，这些概率分布通常是模型输出的下一个词元分布。前向与反向 KL 散度的关键区别在于采样方式 —— 上述期望中采样的来源分布不同。具体来说，监督微调中从数据集采样（离线），而强化学习中从大语言模型自身采样（在线或在线策略）。

监督微调≈ 前向 KL 散度基于这些概念，我们可以证明监督微调所用的训练目标与前向 KL 散度仅相差一个常数。我们将数据集的最优（或目标）分布记为 π_。可以推导出该目标与前向 KL 散度的关系，其中 H (π_) 表示监督微调数据集上最优分布的熵。

上式中，最优分布的熵为常数，因此前向 KL 散度与监督微调训练目标仅相差常数 —— 最小化前向 KL 散度等价于最小化负对数似然目标。

强化学习≈ 反向 KL 散度如前所述，强化学习试图最大化在线策略补全结果的奖励，同时最小化与参考策略的 KL 散度。我们实际上可以推导出强化学习目标最优解的闭式表达式。最优策略表达式如下，其中 Z (x) 表示配分函数。值得注意的是，这一最优策略表达式也是推导直接偏好优化训练损失的第一步！

若假设该最优策略π_* 为目标分布，则可证明最大化强化学习目标等价于最小化该目标分布与策略 π_θ 之间的反向 KL 散度。

可见，该等式第一行计算的反向 KL 散度，与我们推导监督微调目标时所用的 KL 散度相对。最后一行是强化学习目标的负值（外加 1/β 的缩放因子与额外常数）。因此，最小化该反向 KL 散度目标与最大化强化学习训练目标等价。

这告诉我们什么？现在我们了解了监督微调和强化学习分别与前向、反向 KL 散度的关系。但这些关系究竟能为我们揭示目标的哪些特性？监督微调最小化数据集上的负对数似然，等价于最小化前向 KL 散度，这是一个覆盖模式的目标。模型会因给数据中任何补全结果分配低概率而受到严重惩罚—— 模型必须将概率质量 “分散” 到数据中所有可能的补全结果或模式上。

另一方面，强化学习最大化在线策略补全结果的奖励，等价于反向 KL 目标，属于寻找模式目标。换言之，模型优先输出高奖励结果，即便以忽略部分输出模式为代价。

在监督微调中，若我们给数据集中任何补全结果分配接近零的概率，模型损失会呈指数增长—— 这源于负对数似然曲线的形状（如上所示）！而强化学习不具备这一特性，因为我们仅需最大化在线策略补全结果的奖励。为某一补全结果分配接近零的概率会使其在强化学习中无法被采样，但在采样到的补全结果上仍可最大化奖励。这是强化学习的核心特性，使其在持续学习中能表现出有利于最小化灾难性遗忘的行为。

强化微调在持续后训练中天然缓解遗忘[1]

持续学习可被视为大语言模型的持续后训练过程。该设置下，同一基础大语言模型在不断演化与扩展的数据流上进行大规模后训练，迫使模型适应新需求、学习新技能或新知识，同时不丢失已有能力。然而，在此场景下避免灾难性遗忘难度极高。文献 [1] 中，作者采用这一持续后训练设置，分析能最大化表现并最小化遗忘的最优学习范式 —— 监督微调（SFT）或强化学习（RL）。

持续后训练现实世界中，持续学习十分复杂—— 大语言模型会不断接触来自各种来源的新数据 —— 但研究需要更规整的替代设置。模拟持续学习的常用方法是采用序列学习（或批次增量）设置，即让大语言模型依次接触一组有序数据集。文献 [1] 中，作者选取七个覆盖多模态（视觉）场景的数据集：ScienceQA、TextVQA、VizWiz、Geometry3K、GQA、PathVQA 与 Super-CLEVR。

“平均准确率越高代表整体表现越好，遗忘度量越接近零代表遗忘越少、知识保留效果越好。”—— 引自 [1]

评估指标持续后训练的目标是：i）最大化大语言模型在每个新任务上的表现；ii）避免在先前任务上出现表现退化 —— 即灾难性遗忘。假设模型在每轮训练后对所有任务进行评估，在完成任务 t 的学习后，任务 j 上的表现为 P_{t,j}。我们可通过以下两个指标捕捉持续后训练的核心表现特性：

平均准确率（AvgAcc）：完成最终任务 T 的训练后，模型在所有任务上的平均准确率
遗忘度量（FM）：模型在所有 T 轮训练序列中，每个任务最终准确率与该任务最佳准确率差值的平均值

持续后训练指标（引自[1]）

持续后训练过程结束后，在所有已接触任务的测试集上计算上述指标。此外，文献 [1] 的作者还在持续后训练结束时，测量模型在多个通用大语言模型基准（如 MMMU、MMLU-Pro、POPE）上的表现，以检查对模型通用能力的影响。

监督微调 vs 强化学习文献 [1] 使用 Qwen-2.5-VL-7B-Instruct 模型开展持续后训练实验，依次在七个基准的数据上训练。值得注意的是，在新任务上训练时，不使用回放缓冲区或先前任务的数据，因此模型避免遗忘的能力完全取决于学习算法的机制。如前所述，实验使用两类学习算法：

监督微调
强化学习（分组相对策略优化、基于最优序的强化学习、ReMax）

强化学习中，我们使用标准推理模型设置计算奖励，将可验证奖励与格式奖励结合，鼓励模型：i）用词元包裹推理轨迹；ii）用 \boxed {} 标签标记输出。所有模型在最终输出前都会生成推理轨迹，同时所有训练设置均会进行有无推理的对照测试。

强化学习遗忘更少文献 [1] 中持续后训练实验结果如下所示。监督微调明显导致已学习任务发生灾难性遗忘，且任务越靠前遗忘越严重 —— 序列中初始任务的遗忘最为严重。具体来看，监督微调的平均准确率为 54%，而所有任务的多任务训练平均准确率达 62.9%。同时，监督微调的遗忘度量为 - 10.4%，表明大多数任务在持续后训练过程中表现显著下降。

监督微调难以缓解遗忘，而强化学习能自然良好地适应新任务。分组相对策略优化的平均准确率为 60%（略低于多任务学习），遗忘度量为 - 2.3%。此外，序列中第一个任务 ScienceQA 的最终准确率为 93%，峰值准确率为 95.6%。这些结果表明，强化学习在学习与记忆之间实现了良好平衡。

“在不使用任何数据回放的情况下，基于强化微调的持续后训练能达到与多任务训练相当的表现，即便为监督微调配备持续学习策略也无法实现这一效果。”—— 引自 [1]

对通用能力的影响同样，基于监督微调的持续后训练也会降低模型的通用能力，如下所示。与之相对，文献 [1] 中显示强化学习能维持 —— 甚至小幅提升 —— 通用基准上的表现。例如，采用分组相对策略优化依次训练的模型，在 MMMU 上的准确率从初始 52.1% 提升至最终 54.2%！

这种维持通用基准表现的能力，是持续学习的理想特性。我们希望大语言模型在适应新任务的同时，尽可能保留已有的基础能力。

**为何强化学习遗忘更少？**基于上述结果，我们不禁会问：为何强化学习能天然避免灾难性遗忘？当然，这种持续学习能力可能直接源于强化学习本身。不过文献 [1] 的作者也为灾难性遗忘的减少提出了两种替代解释：

强化学习中使用的 KL 散度项对训练过程进行正则化，起到知识蒸馏的作用，保留先验知识
强化学习训练的模型中使用的长思维链推理形成更鲁棒的知识库，更不易被遗忘

为验证这些因素是否有助于避免灾难性遗忘，作者设计三组实验，分别剔除 KL 散度与长思维链推理。有趣的是，实验结果表明：移除 KL 散度虽会降低强化学习训练的稳定性，但不会导致持续后训练的表现指标下降。此外，不输出推理轨迹的模型与输出推理轨迹的模型，抵抗灾难性遗忘的能力相近。使用思维链推理能提升基础模型表现，但两种设置下持续训练模型的灾难性遗忘程度相同。

上表概述了消融实验结果。强化学习在持续后训练实验中的优异表现，似乎并非源于 KL 散度或长思维链推理。相反，持续学习能力似乎是强化学习训练的固有属性。文献 [1] 中的理论为我们揭示了强化学习避免遗忘的原理：强化学习会根据奖励信号的方差自然缩放策略更新，对重要或敏感参数执行更保守的更新。

“我们从理论角度提出，强化微调的更新在对先验任务敏感的参数子空间中本质上更保守。这种保守性由奖励信号的方差自然缩放，形成数据依赖的正则化，抑制不确定样本上的更新，从而保护已习得的知识。”—— 引自 [1]

边做边记：在线策略数据在缓解遗忘中的作用[2]

文献 [2] 的研究重点与上文高度相似 —— 试图在持续学习场景下对比监督微调和强化学习。不过其采用不同的实验设置，涵盖三个领域：指令遵循（IFEval）、通用技能（MMLU）与算术推理（Countdown）。除用于训练与评估的目标任务外，还加入若干非目标任务（如 MATH 与两个安全基准），以构建更全面的评估套件。文献 [2] 中，大语言模型并非在任务序列上训练，而是在单一目标任务上训练 —— 即领域自适应设置 —— 并通过以下指标评估表现：

目标任务上的准确率提升
所有非目标任务上的平均准确率下降

值得注意的是，缺少多步序列学习使得该设置不够贴近现实。文献 [1] 中显示，多轮训练后灾难性遗忘的影响会更大。不过文献 [2] 的领域自适应设置能让我们高效分析不同学习算法的遗忘机制。文献 [2] 考虑以下学习算法：

基于教师模型（Llama-3.3-70B-Instruct）输出的监督微调训练
自监督微调训练：在初始策略（训练前）或参考代理的输出上执行监督微调式训练
采用可验证奖励的分组相对策略优化强化学习训练—— 标准可验证奖励强化学习设置

两类监督微调变体均根据各领域确定性验证器判定的正确性筛选补全结果。自监督微调采用拒绝采样设置（即剔除错误输出）作为简单基线，而监督微调设置则从更大模型中进行离线知识蒸馏。自监督微调同样是离线方法，因为补全结果采样自初始模型，而非在线策略。监督微调变体中用于筛选补全结果的可验证正确性信号，同样用作强化学习中的奖励信号。

**强化学习遗忘更少（再次验证）**文献 [2] 使用参数量最高达 80 亿的 Qwen-2.5 与 Llama-3 模型开展实验。如上所示，与强化学习相比，监督微调引发的遗忘程度更高（以非目标任务平均准确率下降衡量）。事实上，在强化学习训练中，Qwen-2.5 模型在所有任务与模型规模下的平均准确率下降均低于 1%，而监督微调的平均准确率下降在部分场景中接近 30%。

“强化学习相比监督微调遗忘更少，同时能达到相当或更高的目标任务表现…… 监督微调出现严重遗忘，而强化学习能在不发生大量遗忘的情况下实现高目标任务表现。”—— 引自 [2]

尽管强化学习能避免灾难性遗忘，但监督微调的结果其实并不算差—— 只是存在明显的领域权衡。通过强化学习训练可在目标领域实现表现提升，但监督微调训练的模型实际表现更优。遗憾的是，监督微调在目标领域的优异表现，是以非目标任务表现下降为代价。因此，二者的对比并非简单的 “强化学习优于监督微调”。相反，强化学习与监督微调处于目标与非目标任务准确率的帕累托前沿不同位置 —— 一个领域的更好表现以另一个领域为代价。

在线策略数据的优势与文献 [1] 的工作类似，文献 [2] 的作者证明强化学习中灾难性遗忘的减少并非源于目标中包含 KL 散度项，如上所示。有趣的是，研究还发现分组相对策略优化所用的具体优势公式对持续学习能力影响甚微 —— 基于朴素强化算法的强化学习设置也能同等程度缓解遗忘。不过，强化学习的持续学习能力可能源于训练中使用在线策略样本—— 这与监督微调所用的离线数据集不同。为验证这一理论，我们考虑以下训练设置：

在线策略监督微调：直接使用强化学习训练过程中获取的全在线策略样本执行监督微调
迭代监督微调：每轮训练后使用当前策略重新生成监督微调数据（即半在线策略方法）

简单来说，这些方法让监督微调适配使用在线策略数据，从而分离强化学习训练与在线策略数据的影响。迭代监督微调还能测试半在线策略场景，即在每轮训练结束时采样全新的在线策略数据（而非每次训练迭代时生成新样本）。这种粗粒度的在线策略数据使用方式具备效率优势—— 我们可调整采样全新在线策略数据的频率。

“我们发现，对于监督微调而言，仅从初始策略生成数据并不足够，但在每轮训练开始时生成近似在线策略数据，就能大幅减少遗忘。这为语言模型后训练提供了实用指导：利用在线策略数据（可异步采样或在每轮训练开始时采样以提升效率），能减少对模型已有能力的意外破坏。”—— 引自 [2]

这些训练算法的实验从实证上证明，在线策略数据是强化学习在持续学习领域取得成功的关键因素。具体来说，在线策略监督微调训练的模型，与强化学习训练的模型缓解遗忘的程度相近。此外，所用数据无需完全在线策略—— 迭代监督微调也呈现相似趋势，如下所示。

寻找模式 vs 覆盖模式直觉上，我们可能认为监督微调的覆盖模式特性能让模型在所有任务上维持概率质量，从而避免灾难性遗忘。但如我们所见，实践中情况恰恰相反。这一发现源于大多数实验中，我们仅在模型总数据分布的一小部分上训练模型。若能将大语言模型的完整训练数据集保留在回放缓冲区中，观察结果可能不同，但高效实现这一方案难度极大。

在标准大语言模型后训练设置中，强化学习的寻找模式行为对灾难性遗忘更鲁棒。为解释这一现象，文献 [2] 的作者构建了上图所示的简化场景，说明遗忘与底层目标分布模态的依赖关系。若目标分布为多模态（大语言模型大概率如此），那么相较于监督微调这类覆盖模式目标，强化学习的寻找模式特性实际上会导致更少遗忘。文献 [2] 中构建的简化分布包含对应旧知识与新知识的两个模态。对于这类分布，前向 KL 目标会产生明显遗忘，而最小化反向 KL 则能正确捕捉目标分布的两种模态。

强化学习剃刀：为何在线强化学习遗忘更少[3]

我们已知，监督微调和强化学习在新任务上训练能达到相当表现，但遗忘动态却截然不同。多数情况下，监督微调在新任务上的提升以抹去先验知识为代价，而强化学习则更擅长保护旧有能力，如下所示。通过研究这一表现差距，文献 [3] 的作者找到一个能可靠预测监督微调和强化学习遗忘程度的指标：基础模型与微调模型在目标任务上的分布偏移 —— 以 KL 散度衡量。

强化学习剃刀除发现底层分布偏移与遗忘之间的关系外，文献 [3] 还显示，监督微调和强化学习得到的微调模型具备独特属性：

强化学习偏向最小化分布偏移的解决方案
监督微调可能收敛到与基础模型任意遥远的解决方案

这一属性自然意味着强化学习具备更优的持续学习能力。通过找到最小化分布偏移的解决方案，我们也能最小化遗忘程度，如上所示。强化学习对邻近、能最小化灾难性遗忘的解决方案的偏向，在文献 [3] 中被称为强化学习剃刀。

“强化学习剃刀：在新任务的众多高奖励解决方案中，强化学习这类在线策略方法天然偏向在 KL 散度上更接近原始策略的解决方案…… 微调模型与基础模型在新任务上的 KL 散度，能可靠预测…… 遗忘程度。”—— 引自 [3]

分布偏移在大语言模型领域，我们常衡量两个模型下一词元分布之间的 KL 散度。例如，强化学习训练目标包含 KL 散度项，用于正则化当前策略与参考策略之间的偏移，其中 KL 散度使用强化学习训练中从当前策略采样的在线策略样本计算。文献 [3] 中，作者在策略微调的任务（即目标任务）数据上计算 KL 散度。我们只能使用目标数据，因为几乎无法获取大语言模型训练所用的预训练数据（或任何先验任务）。

基础模型与微调模型在目标数据集上的 KL 散度，可视为捕捉训练带来的分布偏移。我们计算的是训练前后模型在训练数据本身上的差异。以这种方式衡量时，分布偏移被证实能稳定预测遗忘程度。鉴于计算该 KL 散度未使用任何先验数据，这一发现意义重大！

文献 [3] 中的实验同时使用朴素监督微调和采用分组相对策略优化的强化学习。强化学习设置采用标准可验证奖励，不使用 KL 散度正则化。与文献 [2] 类似，基础模型（Qwen-2.5-3B-Instruct）在单一目标任务（如 Open-Reasoner-Zero、ToolAlpaca 或 SciKnowEval 的化学 L-3 子集）上训练，并在目标任务与一组先验任务（如 HellaSwag、TruthfulQA、MMLU、IFEval、WinoGrande、HumanEval）上评估。鉴于超参数设置会极大影响持续学习设置下的结果，作者为每个任务测试大量超参数，并将所有可能设置的结果可视化为帕累托前沿。

更低的 KL 散度对应更少的遗忘强化学习训练在提升目标任务表现的同时，能稳定维持先验任务的表现。而通过监督微调获得的表现提升，则以明显遗忘为代价。数学领域的表现退化最为明显，如下所示。

由于强化学习训练计算成本高昂，验证每个假设的代价极大，因此确定这类遗忘的成因十分困难！为让探索更易处理，作者基于 MNIST 与 FashionMNIST 数据集构建简易场景，其中强化学习训练速度快得多。在该场景下，作者测试多个候选指标与灾难性遗忘的关系：

模型参数变化幅度
权重更新稀疏性
训练过程中策略梯度的秩

唯一与灾难性遗忘程度呈现稳定关系的量，是基础模型与微调模型在目标数据集上的 KL 散度，如下所示。值得注意的是，策略梯度更新的秩或稀疏性与遗忘无关，而先前研究 [4] 已证明，即便使用低秩低秩适配，强化学习效果也出奇地好。这一发现表明，强化学习产生的更新可能稀疏或低秩，这有助于减少遗忘。但文献 [3] 显示，实际情况并非如此简单。相反，强化学习的优势源于隐式 KL 正则化 —— 即强化学习剃刀 —— 能最小化训练中的分布偏移。

为进一步验证 KL 散度与遗忘的关系，作者在简易场景中构建 “神谕” 监督微调分布。简单来说，该实验在经解析构建、最小化基础模型与微调模型 KL 散度的数据集上执行监督微调。如上所示，在该数据上执行监督微调得到的权衡效果甚至优于强化学习 —— 模型在目标任务上表现更优，且不牺牲先验任务表现。

“强化学习表现良好，是因为其在线策略更新将解决方案偏向低 KL 区域；而当监督微调被显式引导至 KL 最小分布时，其表现可超越强化学习。”—— 引自 [3]

在线策略数据除上述简易示例外，文献 [3] 的作者还在强化学习过程中获取的在线策略数据上执行监督微调训练。所得模型实现的准确率 - 遗忘权衡与强化学习训练模型一致，这与先前工作 [2] 的结论相符，也进一步证明在线策略数据是强化学习缓解遗忘的关键因素。为更好理解在线策略数据的影响，作者测试三种不同学习算法（如下所示）：

标准分组相对策略优化
标准监督微调
1-0 强化算法：一种在线策略强化学习算法，优势函数极为简单（答案正确则为 1，否则为 0）
简单偏好优化 [5]：一种离线偏好微调算法，直接使用序列的对数概率作为隐式奖励，从而简化直接偏好优化，无需参考代理

可见，上图左半部分实验在训练设置中剔除了负样本与在线策略数据。有趣的是，0-1 强化算法表现与分组相对策略优化相近，而简单偏好优化结果与监督微调相似。这些结果表明，在线策略数据的使用是强化学习遗忘少的关键原因。上图还显示，使用在线策略数据能让基础模型与微调模型在目标分布上的 KL 散度最小。这些结果表明，强化学习对低 KL 解决方案的隐式偏向源于训练的在线特性。文献 [3] 中的进一步理论分析也从实证上验证了这一观察。

熵自适应微调：解决置信冲突以缓解遗忘[4]

“强化学习与模型内部信念保持一致，而监督微调则强迫模型拟合外部监督信号。这种不匹配常表现为置信冲突—— 即低概率、低熵的词元。”—— 引自 [6]

我们已知，强化学习因使用在线策略数据，能比监督微调更好地避免灾难性遗忘，从而在目标数据上找到基础模型与微调模型间 KL 散度最小的解决方案。尽管我们知道这些因素能减少遗忘，但尚未理解其背后原理。文献 [6] 中，作者通过分析监督微调和强化学习训练模型的词元概率与熵，为二者的遗忘特性提供了新视角。在训练过程中测量这两个量时，我们发现明显差异：

在线策略强化学习倾向聚集在高置信、正确预测区域（高概率、低熵）或探索性补全区域（高熵）
监督微调存在大量同时低熵、低概率的词元—— 这类词元被称为置信冲突

为发现这一分布不匹配，作者在监督微调数据集与模型生成的 rollout 上测量词元概率与预测熵。下图可视化这一趋势：监督微调数据存在明显的置信冲突词元聚集，而使用在线策略数据时则不存在这一聚集。

**为何会出现这种情况？**监督微调中使用外部监督信号（即离线监督数据集），而强化学习从在线策略或自生成数据中学习。某些情况下，在外部数据上训练模型会强迫其模仿与当前词元分布 poorly 对齐的输出 —— 当外部数据与模型先验存在强烈冲突时，就会出现置信冲突。结果，梯度更新可能变得巨大且具有破坏性，导致灾难性遗忘。

“由于模型强烈偏好另一个词元，拟合目标需要大幅更新参数，这可能覆盖基础模型中的通用表示。相比之下，当模型不确定时（高熵），梯度更小，更新更温和，有助于保留模型原有能力。”—— 引自 [6]

屏蔽冲突为验证置信冲突词元是否真的会导致遗忘，文献 [6] 的作者测试在监督微调中直接屏蔽这类词元的损失。有趣的是，将这些词元从训练损失中屏蔽后，灾难性遗忘显著减少，表明置信冲突词元是监督微调破坏先验知识的重要因素，如下所示。

基于这一思路，文献 [6] 提出一种名为 "熵自适应微调（EAFT）"的新型训练算法，通过动态熵因子缩放词元级交叉熵损失。新的损失公式如下，将监督损失乘以词元的归一化熵。通过使用这种词元级熵缩放因子，我们能有效屏蔽导致破坏性梯度更新的低熵词元损失，同时保留对探索有益的高熵词元的完整更新。

熵自适应微调损失公式（引自[6]）

“熵自适应微调采用软门控机制，基于词元级熵动态调节训练损失。”—— 引自 [6]

为提升熵自适应微调的效率，文献 [6] 的作者仅在分布的 Top-K（K=20）词元上计算熵。如下图所示，这一设置平衡了计算与内存开销的权衡，确保相比朴素监督微调，新增计算开销最小。

数学领域结果熵自适应微调在数学领域通过多个系列、参数量 40 亿至 320 亿的模型得到验证。训练提示来自 NuminaMath、BigMathVerified 与 Nemotron-CrossThink，补全结果采样自 Qwen-3-235B-A22B-Instruct。评估同时使用域内与通用基准。熵自适应微调训练的模型在目标领域表现良好，同时维持通用基准上的表现，如下所示。此外，实验证实熵自适应微调能在训练过程中有效过滤置信冲突样本，下图置信冲突区域内的梯度幅度明显下降。医学与工具使用领域的实验也进一步验证了这些结果。

强化学习泛化能力如何？

截至目前，我们聚焦于学习新技能的同时保留旧技能。一个密切相关的问题是：减少遗忘的同一机制是否也能提升迁移与分布外泛化能力。强化学习在持续学习场景中的优异表现，对其泛化特性具有重要意义。简单来说，强化学习训练的收益不止于目标领域。接下来几篇论文中我们会看到，大量案例表明强化学习训练能带来跨领域表现收益，或提升大语言模型对其他任务的泛化能力。这类分析与我们所见的持续学习研究本质相似，但重点从记住先验任务转向超越训练分布的泛化。

监督微调死记硬背，强化学习泛化迁移[7]

文献 [7] 在纯语言与视觉语言任务上，对监督微调和强化学习进行后训练对比分析。分析主要结果如上所示：

监督微调和强化学习均能提升域内表现
只有强化学习能良好泛化到新任务或新数据

文献 [7] 的实验以 Llama-3.2-Vision-11B 为基础模型，在两个合成任务（如下所示）上训练，测试不同形式的泛化：

GeneralPoints：一款卡牌游戏，要求模型用给定四张卡牌创建等式，得到目标数值。可通过改变花牌与数字的映射关系，测试基于规则的泛化
V-IRL：导航任务，要求模型利用视觉地标与空间推理到达目的地。可通过改变可用动作空间或视觉上下文，测试泛化能力

每个任务均可设置为纯语言与视觉语言问题。所有实验中，强化学习倾向促进分布外泛化，而监督微调实际上会破坏泛化能力。例如，强化学习训练的模型在纯语言 GeneralPoints 与 V-IRL 上，分布外表现分别提升 3.5% 与 11.0%。视觉语言变体的表现提升略低（GeneralPoints 与 V-IRL 分别为 3.0% 与 9.3%），但依然存在。与之形成鲜明对比的是，监督微调使分布外表现最多下降 79.5%。

有趣的是，文献 [7] 的作者还发现，强化学习能提升模型底层的感知能力。具体来说，模型在训练过程中识别关键视觉特征的能力实际得到提升，表明强化学习不仅学习推理模式，还能改进基础能力（即感知）。

“对 GeneralPoints - 视觉语言任务的分析显示，强化学习提升了模型从图像中正确识别卡牌数值的能力，表明基于结果的奖励能优化感知处理，效果超越监督训练。”—— 引自 [7]

从原子到复合[8]

文献 [8] 测试强化学习训练对需要互补推理 —— 将外部上下文与模型参数化知识整合的能力 —— 问题的泛化影响。为测试这类推理，作者构建受控合成数据集，如下所示。该数据集基于包含固定关系的人物传记知识图谱。利用该图谱，我们可刻意设计多跳问题，测试互补推理。具体来说，问题被专门设计为测试三个复杂度递增的推理层级（如下所示）：

独立同分布推理：将已知模式应用于新实体
复合推理：将已知关系应用于新关系路径
零样本推理：需要泛化到未见过的关系

文献 [8] 的训练流程以 Qwen-2.5-1.5B 为起点，先执行一轮监督微调，再测试监督微调和强化学习（采用分组相对策略优化与二元可验证奖励）训练的多种组合。实验主要结果如下所示。

可见，该分析表明强化学习能将多种原子推理能力合成为更高层级（复合）的推理模式。不过这仅在模型先通过监督微调训练后才有可能实现。与之相对，纯监督微调训练能获得高域内表现，但分布外泛化能力差，这与先前工作的发现一致。换言之，监督微调倾向死记硬背推理模式，而非真正学习。当模型先通过监督微调习得基础原子推理能力后，强化学习就会充当“合成器”，让模型学会如何正确组合这些能力，解决复杂的复合推理问题。

“我们证明，当大语言模型先通过监督微调预训练基础原子推理技能后，强化学习能合成全新推理策略，并实现稳健的零样本泛化。”—— 引自 [8]

数学推理能提升通用大语言模型能力吗？

文献 [9] 开展大规模实证分析，探究面向数学的推理训练是否对其他领域也有帮助。该分析既广泛审核了现有模型在数学推理、通用推理与非推理基准上的表现，也对比了仅在数学数据（即来自 DeepScaler 与 SimpleRL 的约 4.7 万条提示）上的监督微调和强化学习微调。

如上图所示，监督微调训练的模型向非推理任务的迁移能力较差，而强化学习训练的模型在推理与非推理任务上均能泛化—— 强化学习模型的泛化能力超越数学领域，且天然避免灾难性遗忘。分析其他开源监督微调或推理模型在推理与非推理基准上的迁移能力时，也观察到相似趋势，如下所示。文献 [9] 的进一步分析表明，在线策略数据 —— 正如我们从文献 [2, 3] 中预期的那样 —— 与强化学习目标中负梯度的存在，是其优异泛化特性的关键因素。

结论

持续学习中，我们希望模型快速学习新任务，同时保留旧有能力。研读近年大语言模型持续学习相关工作后，一个一致的模式浮现：在线策略强化学习相比监督微调，天然对灾难性遗忘更鲁棒，即便没有显式机制辅助持续学习过程。这一优势似乎源于强化学习的在线特性，它让学习偏向低分布偏移（或低 KL 散度）的解决方案，避免离线数据引发的破坏性更新。强化学习天然的持续学习能力，对通用人工智能的实现具有更广泛的意义，因为适应性是通用智能系统的关键前提。本文中的研究仅使用简单、结构化的代理任务模拟现实世界的持续学习，而现实场景会复杂得多。不过这些结果表明，强化学习 —— 这一已具影响力的训练范式 —— 是构建能适应任意任务的通用系统的有希望起点。如此一来，延续当前大语言模型的研究路线，或许能自然推动持续学习领域的进步。

最后

我在一线科技企业深耕十二载，见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包：

✅AI大模型学习路线图
✅Agent行业报告
✅100集大模型视频教程
✅大模型书籍PDF
✅DeepSeek教程
✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型？

人工智能技术的爆发式增长，正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议，到全国两会关于AI产业发展的政策聚焦，再到招聘会上排起的长队，AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证：2025年2月，AI领域求职人数同比增幅突破200% ，远超其他行业平均水平；整个人工智能行业的求职增速达到33.4%，位居各行业榜首，其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张，也让人才供需矛盾愈发突出。麦肯锡报告明确预测，到2030年中国AI专业人才需求将达600万人，人才缺口可能高达400万人，这一缺口不仅存在于核心技术领域，更蔓延至产业应用的各个环节。

在这里插入图片描述

资料包有什么？

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图（还有视频解说）

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了，这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理，鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位，在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利，同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制，且资料与智泊AI共享，相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述