大模型算法（六）：强化学习

wlyswh2010

428人浏览 · 2026-03-01 02:30:10

wlyswh2010 · 2026-03-01 02:30:10 发布

1、RL算法

1.1 基础理论算法

是所有 RL 算法的底层框架，定义了 RL 的核心学习范式，无工程直接落地性，但必须掌握。

Monte-Carlo RL（MC，蒙特卡洛强化学习）：基于完整轨迹回报的无模型学习，首次实现 “从经验中学习”，适用于短轨迹、无终止状态任务。
Temporal-Difference RL（TD，时序差分学习）：融合 MC 和动态规划，基于单步增量回报学习，是 RL 的核心框架，在线更新、无需完整轨迹。
Sarsa (λ)/Q-Learning (λ)（资格迹 TD 学习）：TD 的扩展，引入资格迹（Eligibility Trace），融合单步 TD 和多步 MC，平衡学习速度和稳定性，λ∈[0,1] 调节。
Dynamic Programming（DP，动态规划）：有模型 RL 的基础，基于环境模型做策略迭代 / 价值迭代，仅适用于小状态空间（如网格世界）。
MDP Solver（马尔可夫决策过程求解器）：含策略评估、策略改进、价值迭代，是所有 RL 算法的理论参照，无实际工程应用。
POMDP Solver（部分可观测马尔可夫决策过程求解器）：MDP 的扩展，解决状态部分观测问题，代表算法POMCP（蒙特卡洛树搜索 + POMDP），适用于传感器受限场景。

1.2 无模型价值基算法（离散动作核心）

仅适配离散动作空间，训练稳定、实现简单，是入门首选，核心优化动作价值函数 Q (s,a)。

经典基础

Q-Learning：离线策略 TD 算法，核心是 “异策略更新”，无需遵循当前策略选动作，是所有价值基算法的鼻祖。
SARSA：在线策略 TD 算法，“同策略更新”（动作选择与更新一致），比 Q-Learning 更保守，适用于需规避风险的场景（如机器人避障）。
Expected SARSA：SARSA 的改进，用动作期望回报替代单步采样回报，降低训练方差，稳定性优于 SARSA。

DQN 及全变种（深度价值基核心，工程落地主流）

DQN（Deep Q-Network）：深度 RL 里程碑，引入经验回放 + 目标网络，解决深度学习与 RL 结合的不稳定性，适配高维状态空间（如雅达利游戏）。
Double DQN：解决 DQN 的Q 值过估计问题，用当前 Q 网络选动作、目标 Q 网络评价值，提升估计精度。
Dueling DQN：将 Q 网络拆分为状态价值 V (s)和优势函数 A (s,a)，精准学习 “状态本身的价值”，适用于状态影响远大于动作的场景。
Prioritized Experience Replay（PER-DQN）：基于回报误差加权经验回放，优先学习 “高价值样本”，提升样本效率。
Noisy DQN：引入噪声线性层替代 ε- 贪心探索，实现自适应探索，探索效率更高，适用于复杂探索任务。
DQN with Dueling+Double+PER+NoisyNet：DQN 基础改进融合版，性能大幅提升。
Rainbow：DQN终极改进版本，集成 Double/Dueling/PER/NoisyNet/ 多步 TD / 分布型 RL，是传统离散动作价值基算法的性能天花板。
C51（Categorical DQN）：分布型价值基算法，学习Q 值的概率分布而非标量，鲁棒性远高于传统 DQN，是分布型 RL 的基础。
QR-DQN（Quantile Regression DQN）：基于分位数回归的分布型 DQN，比 C51 更灵活，适配非高斯 Q 值分布。

1.3、无模型策略基算法（直接优化策略）

适配离散 / 连续动作空间，策略平滑，核心直接优化策略函数 π_θ(a|s)，但原生训练方差高，多与 AC 结合落地。

19. REINFORCE：经典蒙特卡洛策略梯度算法，基于完整轨迹计算梯度，方差高、收敛慢，是策略基算法的鼻祖。

20. REINFORCE with Baseline：REINFORCE 的改进，引入基线函数（如 V (s)） 消除梯度均值偏移，大幅降低方差。

21. Stochastic Policy Gradient（SPG，随机策略梯度）：TD 版策略梯度，在线更新、无需完整轨迹，比 REINFORCE 收敛快。

22. Deterministic Policy Gradient（DPG，确定性策略梯度）：适用于连续动作空间，输出确定动作而非概率，样本效率远高于 SPG，是 DDPG 的基础。

23. TRPO（Trust Region Policy Optimization）：通过信任域约束限制策略更新幅度，保证优化单调性，解决策略梯度 “更新过大导致发散” 问题，计算复杂度高。

24. PPO（Proximal Policy Optimization）：目前工业界最主流 RL 算法，TRPO 的简化版，通过裁剪目标函数替代信任域，兼顾稳定性、效率、通用性，适配所有动作空间。

25. PPO-Clip：PPO 主流版本，通过裁剪优势函数实现策略约束，实现简单、训练稳定。

26. PPO-Penalty：PPO 的另一种实现，通过 KL 散度惩罚约束策略更新，适用于对策略平滑性要求高的场景。

1.4、Actor-Critic（AC）算法（融合价值 + 策略）

RL工程落地核心框架，适配所有动作空间，由 Actor（策略）+Critic（价值）组成，兼顾策略基的适配性和价值基的低方差，是目前绝大多数实际任务的首选。

经典基础 AC

AC（Actor-Critic）：基础框架，Actor 输出动作，Critic 评估 V (s)，用 V (s) 作为基线降低策略梯度方差，是所有 AC 算法的鼻祖。
Advantage AC（优势 Actor-Critic）：用优势函数 A (s,a)=Q (s,a)-V (s) 替代 V (s) 评估，进一步降低方差，提升训练效率。

经典进阶 AC

A2C（Synchronous Advantage Actor-Critic）：同步多线程 AC，批量计算梯度，训练稳定、实现简单，是入门 AC 的首选。
A3C（Asynchronous Advantage Actor-Critic）：异步多线程 AC，多线程独立探索 + 参数异步更新，训练效率远高于 A2C，是分布式 RL 的基础。
GAE（Generalized Advantage Estimation）：非独立算法，AC 核心组件，融合多步优势估计，精准平衡偏差和方差，所有现代 AC 算法均基于 GAE。

连续动作专属 AC（工程主流）

DDPG（Deep Deterministic Policy Gradient）：结合 DPG 和 DQN，引入经验回放 + 目标网络，是首个落地的深度连续动作 AC 算法，适用于机器人控制、自动驾驶。
TD3（Twin Delayed DDPG）：DDPG 的终极改进版，引入双 Critic + 策略延迟更新 + 动作噪声正则，解决 DDPG 的过估计、训练震荡问题，连续动作经典算法。
SAC（Soft Actor-Critic）：最大熵 AC 核心算法，兼顾 “奖励最大化” 和 “策略熵最大化”，自适应探索，鲁棒性、样本效率远高于 DDPG/TD3，连续控制落地首选。
SAC-v1/SAC-v2：SAC 的两个版本，v2 引入自动温度系数调整，无需手动调参，实用性更强。
PPO-AC：广义 PPO 归为 AC 框架，Critic 学习 V (s)，Actor 基于 GAE 优化，是目前离散 / 连续动作通用的最优 AC 算法。

分布型 AC（前沿改进）

QR-DQN AC：结合分位数回归的分布型 AC，学习 Q 值分布，鲁棒性更高。
CAC（Categorical Actor-Critic）：分布型 AC 的经典版本，基于 C51 的思想，适用于噪声较大的场景。

其他改进 AC

D4PG（Distributed Distributional Deep Deterministic Policy Gradient）：融合 DDPG + 分布型 RL + 分布式训练，样本效率和性能大幅提升，适用于大规模连续动作任务。
PPO-FP（PPO with Fixed Point）：PPO 的改进，基于不动点理论优化策略更新，收敛速度更快。

1.5、有模型（Model-Based）RL 算法（样本效率核心）

先学习环境模型 P (s'|s,a)+ 奖励模型 R (s,a)，再基于模型规划，样本效率比无模型 RL 高 1-2 个数量级，适用于环境交互成本高的场景（如机器人实机、物理仿真）。

41. Dyna-Q：经典有模型 RL，融合 “无模型 Q-Learning + 模型模拟规划”，是有模型 RL 的入门算法。

42. Dyna-2：Dyna-Q 的改进，分离 “模型学习” 和 “策略学习”，提升规划效率。

43. MBPO（Model-Based Policy Optimization）：目前主流有模型 RL 算法，用无模型 RL（SAC）优化模型生成的虚拟数据，兼顾样本效率和泛化性，连续控制首选。

44. PETS（Probabilistic Ensemble Trajectory Sampling）：基于概率集成模型的有模型 RL，处理模型不确定性，鲁棒性高于 MBPO。

45. MuZero：DeepMind 经典算法，无模型 + 有模型融合巅峰，无需显式环境模型，通过动态规划 + 蒙特卡洛树搜索（MCTS） 自学习模型，适用于棋类、游戏、机器人。

46. AlphaGo/AlphaGo Zero：基于 MCTS + 有模型 RL，AlphaGo 融合人类棋谱，AlphaGo Zero 纯自博弈，是棋类 AI 的里程碑。

47. AlphaZero：AlphaGo Zero 的通用版本，适配所有完美信息博弈（围棋、国际象棋、将棋），无领域知识，纯自博弈学习。

48. World Models：基于变分自编码器（VAE）+LSTM学习环境模型，用简单策略在虚拟模型中训练，样本效率极高。

49. PILCO（Probabilistic Inference for Learning Control）：基于高斯过程的有模型 RL，适用于高精度、小样本的机器人控制任务。

1.6 离线 / 批量强化学习（工业落地核心）

无需与环境实时在线交互，直接利用离线数据集（人类演示 / 历史交互）训练，无试错成本，是从 “实验室” 到 “工业界” 的关键算法，核心解决分布偏移问题。

模仿学习（离线 RL 的重要分支，无奖励函数）

BC（Behavior Cloning，行为克隆）：经典模仿学习，监督学习拟合人类演示的 s→a 映射，实现简单、无探索，适用于有大量人类演示的场景。
DAGGER（Dataset Aggregation）：BC 的改进，迭代收集 “专家 + 智能体” 数据，解决 BC 的分布偏移，提升策略泛化性。
GAIL（Generative Adversarial Imitation Learning，生成式对抗模仿学习）：对抗式模仿学习，无需奖励函数，通过 GAN 让智能体策略逼近专家策略，性能优于 BC。
FAIRL（Feasible Action Invariant RL）：GAIL 的改进，解决 GAIL 的模式崩溃问题，探索更充分。
AIRL（Adversarial Inverse RL）：融合逆强化学习（IRL）和 GAIL，先学习专家的奖励函数，再用 RL 优化，适用于专家演示少的场景。

纯离线 RL（基于离线数据优化，有奖励函数）

IQL（Implicit Q-Learning）：目前主流离线价值基算法，基于 Q-Learning 的改进，通过隐式约束解决分布偏移，样本效率高，适配离散 / 连续动作。
CQL（Conservative Q-Learning）：保守 Q 学习，通过过估计 Q 值实现保守策略优化，避免选择离线数据中未出现的动作，是离线 RL 的经典算法。
TD3+BC：离线连续动作主流算法，将 TD3 与 BC 结合，用 BC 约束策略，解决分布偏移，实现简单、性能稳定。
SAC+BC：TD3+BC 的改进，基于 SAC 的最大熵特性，探索性更强，鲁棒性更高。
AWAC（Advantage Weighted Actor-Critic）：离线 AC 算法，用优势函数加权专家动作，提升策略向专家靠拢的速度。

1.7、多智能体强化学习（MARL，多主体决策）

适配多个智能体交互的场景，核心解决环境非平稳性和信用分配问题，分为合作 / 竞争 / 混合三大类，主流框架为CTDE（中心化训练 / 去中心化执行）。

60. MADDPG（Multi-Agent DDPG）：经典多智能体 AC 算法，CTDE 框架，中心化 Critic 评估全局状态，去中心化 Actor 输出动作，适用于合作 / 混合场景。

61. MAPPO（Multi-Agent PPO）：目前最主流 MARL 算法，PPO 的多智能体版本，CTDE 框架，兼顾性能、效率、通用性，适配所有 MARL 场景。

62. QMIX（Q-Mixing Network）：合作型 MARL 价值基算法，通过混合网络将个体 Q 值融合为全局 Q 值，完美解决合作场景的信用分配问题。

63. QTRAN（Q-Transformation）：QMIX 的改进，突破 QMIX 的单调性约束，适配更复杂的合作任务。

64. COMA（Counterfactual Multi-Agent Policy Gradient）：合作型 MARL 策略基算法，通过反事实推理解决信用分配问题，适用于离散动作合作场景。

65. MAAC（Multi-Agent Actor-Critic）：通用多智能体 AC 算法，支持多智能体间的通信，适用于需要协作通信的场景（如多机器人编队）。

66. VDN（Value-Decomposition Network）：QMIX 的基础，将全局 Q 值分解为个体 Q 值的和，实现简单，适用于简单合作任务。67. Self-Play（自博弈）：竞争型 MARL 核心范式，智能体与自身的不同版本对弈，实现策略自提升，是 AlphaGo/AlphaZero 的核心。68. League Training（联赛训练）：自博弈的改进，多个不同策略的智能体组成联赛对弈，避免策略收敛到局部最优，适用于复杂竞争场景（如星际争霸）。

1.8、强化学习前沿拓展算法

覆盖分层、分布式、最大熵、鲁棒、多任务等前沿方向，解决传统 RL 的长程任务、大规模训练、鲁棒性差等问题。

分层强化学习（HRL，长程任务核心）

MAXQ：经典分层 RL 算法，将任务拆分为子任务层级，每个子任务学习独立的策略，解决长程任务的信用分配问题。
Feudal RL（FRL，封建 RL）：将智能体分为高层管理者（选子任务）和低层执行者（执行动作），适用于复杂长程任务（如机器人自主导航）。
HAC（Hierarchical Actor-Critic）：分层 AC 算法，每层均为独立的 AC，高层输出子目标，低层输出动作，工程落地主流。

最大熵强化学习（探索 + 鲁棒核心）

Soft Q-Learning（SQL）：最大熵价值基算法，是 SAC 的基础，兼顾奖励和熵，探索性强。
MPO（Maximum a Posteriori Policy Optimization）：最大熵策略基算法，适用于对鲁棒性要求高的场景。

分布式 / 鲁棒 / 多任务 RL

IMPALA（Importance Weighted Actor-Learner Architecture）：分布式 RL 经典框架，Actor 异步探索 + Learner 同步训练，引入重要性加权解决样本分布问题，大规模训练首选。
R2D2（Recurrent Experience Replay in Distributed RL）：IMPALA 的改进，引入循环网络 + 经验回放，适用于部分可观测、长序列任务。
Robust RL（鲁棒强化学习）：针对环境噪声 / 模型偏差的改进，代表算法TRPO-Robust，适用于实际工业场景（环境存在不确定性）。
Multi-Task RL（多任务强化学习）：同时学习多个相关任务，实现知识迁移，代表算法MTPPO，适用于需要泛化到不同任务的场景（如机器人多动作执行）。
Meta-RL（元强化学习）：“学习如何学习”，快速适应新任务，代表算法MAML-RL，适用于少样本、快速适配的场景。
Curiosity-Driven RL（好奇心驱动 RL）：基于内在奖励（好奇心）实现自主探索，解决稀疏奖励问题，代表算法ICM（Intrinsic Curiosity Module）。

1.9、LLM 对齐特化强化学习算法（大模型落地核心）

针对大语言模型（LLM） 的超大动作空间（token 级）、文本状态、偏好奖励做特化适配，是目前 AI 领域的研究热点，核心目标是实现 LLM 的人类对齐。

80. RLHF（Reinforcement Learning from Human Feedback，从人类反馈中学习的 RL）：LLM 对齐经典范式，SFT（有监督微调）+RM（奖励模型）+PPO三阶段，是 InstructGPT/GPT-4/LLaMA2 的核心对齐算法。

81. DPO（Direct Preference Optimization，直接偏好优化）：目前LLM 对齐主流算法，无需训练 RM 和 PPO，直接通过偏好数据（优 / 劣回答对）优化 LLM，简化流程、训练稳定、效率高。82. GRPO（Generalized Reward Preference Optimization，广义奖励偏好优化）：DPO/PPO 统一框架，支持多偏好、多奖励、混合反馈，适配复杂对齐需求。

83. IPO（Implicit Preference Optimization，隐式偏好优化）：DPO 的改进，通过隐式约束实现更保守的优化，鲁棒性更高。

84. SDPO（Smooth Direct Preference Optimization，平滑 DPO）：引入平滑项解决 DPO 的策略突变问题，提升生成文本的流畅性。

85. RLAIF（Reinforcement Learning from AI Feedback，从 AI 反馈中学习的 RL）：RLHF 的轻量化变种，用大模型 AI 反馈替代人类反馈，大幅降低标注成本，实现规模化对齐。

86. Constitution AI（宪法 AI）：Anthropic 提出的 RLAIF 变种，基于规则 / 宪法让 AI 自我评估、修正，实现安全对齐。

87. Self-Rewarding RL（自奖励 RL）：LLM 对齐前沿，无需外部（人类 / AI）反馈，LLM自身生成奖励信号实现自对齐，是未来终极方向。

2、RL学习路径和资源

2.1 RL 算法学习路径

1. 入门学习（必学）

Q-Learning → SARSA → DQN → REINFORCE → AC → A2C → PPO → TD3 → SAC → MAPPO

2. 工程落地（按场景选）

离散动作：PPO / Rainbow / DQN
连续动作：PPO / SAC / TD3
多智能体：MAPPO / MADDPG / QMIX
工业离线场景：BC / CQL / IQL / TD3+BC
环境交互成本高：MBPO / MuZero / Dyna-Q
LLM 对齐：DPO / GRPO / RLHF / RLAIF

3. 前沿研究（按需学）

分层 RL（HAC/MAXQ）→ 分布式 RL（IMPALA/R2D2）→ 元 RL（MAML-RL）→ 自奖励 RL → 鲁棒 RL

2.2 RL论文和代码

一、基础强化学习（RL）核心算法

论文名称	简介	论文地址	代码地址
Q-Learning	经典的无模型时序差分（TD）算法，基于价值迭代，是 DQN 的基础，核心是学习动作价值函数 Q(s,a)	https://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf	OpenAI Gym 实现经典实现
DQN (Deep Q-Network)	将深度学习与 Q-Learning 结合，引入经验回放和目标网络解决稳定性问题，是深度强化学习的里程碑	https://arxiv.org/pdf/1312.5602	OpenAI Baselines Stable Baselines3
Policy Gradient & REINFORCE	直接对策略函数 $\pi (a	s)$ 求导优化，是策略梯度方法的基础，解决连续动作空间问题	http://people.cs.umass.edu/~barto/courses/cs687/williams92simple.pdf	PyTorch 实现
PPO (Proximal Policy Optimization)	目前最主流的强化学习算法，通过裁剪目标函数限制策略更新幅度，兼顾稳定性和样本效率，是 LLM 对齐的核心算法	https://arxiv.org/abs/1707.06347	OpenAI Spinning Up Stable Baselines3
TRPO (Trust Region Policy Optimization)	PPO 的前身，通过信任域限制策略更新，保证优化稳定性，但计算复杂度更高	https://arxiv.org/pdf/1502.05477	OpenAI Baselines
SAC (Soft Actor-Critic)	基于最大熵强化学习的离线算法，兼顾探索和收益，适合连续控制任务	https://arxiv.org/pdf/1801.01290	Stable Baselines3
DDPG (Deep Deterministic Policy Gradient)	针对连续动作空间的 Actor-Critic 算法，结合 DQN 的思想优化确定性策略	https://arxiv.org/pdf/1509.02971	Stable Baselines3

二、大语言模型对齐（RLHF/RLAIF/DPO）

论文名称	简介	论文地址	代码地址
RLHF (Deep Reinforcement Learning from Human Preferences)	首次提出从人类偏好中学习的强化学习框架，是 InstructGPT/GPT-4 对齐的核心方法	https://arxiv.org/pdf/1706.03741	OpenAI 原始实现（非官方）
InstructGPT	将 RLHF 落地到大语言模型，通过 SFT+RM+PPO 三阶段实现模型对齐，奠定 LLM 对齐范式	https://arxiv.org/pdf/2203.02155	HuggingFace TRL
DPO (Direct Preference Optimization)	无需训练奖励模型和 PPO，直接通过偏好数据优化语言模型，简化 RLHF 流程，效率更高	https://arxiv.org/pdf/2305.18290	HuggingFace TRL LLaMA Factory
GRPO (Generalized Reward Preference Optimization)	统一 DPO/PPO 框架，支持多偏好、多奖励场景，适配复杂对齐需求	https://arxiv.org/pdf/2402.03300	TRL GRPO Trainer
RLAIF (Reinforcement Learning from AI Feedback)	用 AI 反馈替代人类反馈，降低标注成本，是 RLHF 的轻量化替代方案	https://arxiv.org/pdf/2405.17220	OpenRLHF
Fine-Tuning Language Models from Human Preferences	早期 LLM 偏好对齐的探索，验证了 RLHF 在小模型上的可行性	https://arxiv.org/pdf/1909.08593	官方示例

三、多智能体强化学习（MARL）

论文名称	简介	论文地址	代码地址
MADDPG (Multi-Agent DDPG)	为多智能体场景设计的 Actor-Critic 算法，引入中心化训练、去中心化执行	https://arxiv.org/pdf/1706.02275	OpenAI Baselines
MAPPO (Multi-Agent PPO)	多智能体版本的 PPO，是目前 MARL 的主流算法，兼顾性能和易用性	https://arxiv.org/pdf/2103.01955	MAPPO 官方实现
QMIX (Q-Mixing Network)	基于价值分解的多智能体算法，解决信用分配问题，适合合作型任务	https://arxiv.org/pdf/1803.11485	PyMARL

四、强化学习工具库 / 框架

名称	简介	地址
Stable Baselines3 (SB3)	轻量级、易扩展的强化学习库，支持 PPO/DQN/SAC 等主流算法，适合新手	https://stable-baselines3.readthedocs.io/en/master/ GitHub: https://github.com/DLR-RM/stable-baselines3
RLlib	工业级强化学习库，支持分布式训练，适配大规模任务	https://docs.ray.io/en/latest/rllib/index.html GitHub: https://github.com/ray-project/ray
TRL (Transformer Reinforcement Learning)	专为大语言模型设计的 RL 库，支持 RLHF/DPO/GRPO 等对齐算法	https://github.com/huggingface/trl
OpenRLHF	开源的 RLHF 训练框架，支持分布式训练，适配大模型	https://openrlhf.readthedocs.io/en/latest/ GitHub: https://github.com/OpenRLHF/OpenRLHF