通俗易懂的大模型强化学习（一）

强化学习

长竹Danko

602人浏览 · 2025-11-30 14:33:48

长竹Danko · 2025-11-30 14:33:48 发布

前言

详解强化学习算法。依次介绍 REINFORCE、PPO、GRPO、GSPO、DAPO、SAPO。
通俗易懂的大模型强化学习（一）
通俗易懂的大模型强化学习（二）
通俗易懂的大模型强化学习（三）

一、重要概念定义

策略：智能体在看到状态 $s_{t}$ 的情况下，执行的动作服从概率分布 $\pi_{\theta}(\cdot|s_{t})$ 。也就是此时智能体是以一定概率执行某个动作 $a_{t}$ 。
$a_{t}\sim\pi_{\theta}(\cdot|s_{t})\tag{1}$
奖励：奖励由当前状态 $s_{t}$ 、已经执行的动作 $a_{t}$ 和下一步的状态 $s_{t+1}$ 共同决定。
- 单步奖励：
  $r_{t}=R(s_{t},a_{t},s_{t+1}) \tag{2}$
  - 奖励和策略无关
  - 用于评估当前动作的好坏，指导智能体的动作选择。
- T步累积奖励：T步累积奖励等于一条运动轨迹/一个回合/一个rollout后的单步奖励的累加。
  $R(\tau)=\sum_{t=0}^{T-1}r_{t}\tag{3}$
- T步累积折扣奖励：
  $R(\tau)=\sum_{t=0}^{T-1}\gamma^{t} r_{t}\tag{4}$
  这里 $\gamma\in(0,1)$ 。
运动轨迹：智能体和环境做一系列（一回合）交互后得到的 state、action 和 reward 的序列，运动轨迹也被称为 episodes 或 rollouts，假设智能体和环境交互了 $T$ 次：
$\tau=(s_{0},a_{0},r_{0},s_{1},a_{1},r_{1},\dots,s_{T-1},a_{T-1},r_{T-1})$
轨迹概率：由于动作执行和状态转移都具备一定的随机性（其实在大模型场景，不太了解为什么状态转移具备随机性，前置文本 $s_{t}$ 和下一个token $a_{t}$ 都确定了，下一个文本序列 $s_{t+1}$ 应该就是确定的啊），因此上述轨迹 $\tau$ 是具有随机性的，出现的概率如下：
$\begin{aligned} P(\tau|\pi_{\theta})&=P(s_{0})\pi_{\theta}(a_{0}|s_{0})P(s_{1}|s_{0},a_{0})\pi_{\theta}(a_{1}|s_{1})P(s_{2}|s_{1},a_{1})\cdots\\ &=P(s_{0})\prod_{t=0}^{T-1}\pi_{\theta}(a_{t}|s_{t})P(s_{t+!}|s_{t},a_{t})\tag{5} \end{aligned}$
其中：
- $P(s_{0})$ ：初始状态出现的概率；
- $\pi(a_{t}|s_{t})$ ：是策略 $\pi$ 在状态 $s_{t}$ 下选择动作 $a_{t}$ 的概率；
- $P(s_{t+!}|s_{t},a_{t})$ ：是状态转移概率。

二、策略梯度算法

策略目标：

$\begin{aligned} J(\theta)&=\mathbb{E}_{\tau\sim\pi_{\theta}}[R(\tau)]\\ &=\mathbb{E}_{\tau\sim\pi_{\theta}}[\sum_{t=0}^{T-1}r_{t}]\\ &=\sum_{\tau}P(\tau|\pi_{\theta})R(\tau)\tag{6} \end{aligned}$

策略梯度：
$\begin{aligned} \nabla_{\theta}J(\theta)&=\sum_{\tau}R(\tau)\nabla_{\theta}P(\tau|\pi_{\theta})\\ &=\sum_{\tau}R(\tau)P(\tau|\pi_{\theta})\frac{\nabla_{\theta}P(\tau|\pi_{\theta})}{P(\tau|\pi_{\theta})}\\ &=\sum_{\tau}R(\tau)P(\tau|\pi_{\theta})\nabla_{\theta}logP(\tau|\pi_{\theta})\\ &=\mathbb{E}_{\tau\sim\pi_{\theta}}[R(\tau)\nabla_{\theta}logP(\tau|\pi_{\theta})]\tag{7} \end{aligned}$
上述推导使用了对数导数的技巧：
$\begin{aligned} &\nabla_{\theta}logP(\tau|\pi_{\theta})=\frac{\nabla_{\theta}P(\tau|\pi_{\theta})}{P(\tau|\pi_{\theta})}\\ \Rightarrow&\nabla_{\theta}P(\tau|\pi_{\theta})=P(\tau|\pi_{\theta})\nabla_{\theta}logP(\tau|\pi_{\theta})\tag{8} \end{aligned}$
又因为根据前文轨迹概率（等式(5)）的计算，有如下等式成立：
$\begin{aligned} P(\tau|\pi_{\theta})=P(s_{0})\prod_{t=0}^{T-1}\pi_{\theta}(a_{t}|s_{t})P(s_{t+!}|s_{t},a_{t})\tag{9} \end{aligned}$
所以：
$\begin{aligned} \nabla_{\theta}logP(\tau|\pi_{\theta})&=\nabla_{\theta}[logP(s_{0})+\sum_{t=0}^{T-1}logP(s_{t+!}|s_{t},a_{t})+\sum_{t=0}^{T-1}log\pi_{\theta}(a_{t}|s_{t})]\\ &=\nabla_{\theta}logP(s_{0})+\sum_{t=0}^{T-1}\nabla_{\theta}logP(s_{t+!}|s_{t},a_{t})+\sum_{t=0}^{T-1}\nabla_{\theta}log\pi_{\theta}(a_{t}|s_{t})]\\ &=\sum_{t=0}^{T-1}\nabla_{\theta}log\pi_{\theta}(a_{t}|s_{t})\tag{10} \end{aligned}$
其中第二行到第三行的变化，是基于如下事实：
- $\nabla_{\theta}logP(s_{0})=0$ ，初始状态与参数 $\theta$ 无关；
- $\nabla_{\theta}logP(s_{t+!}|s_{t},a_{t})=0$ ，环境变化与参数 $\theta$ 无关。

将等式(10)带入等式(7)，可得如下策略梯度表达式：
$\begin{aligned} \nabla_{\theta}J(\theta)&=\mathbb{E}_{\tau\sim\pi_{\theta}}[R(\tau)\nabla_{\theta}logP(\tau|\pi_{\theta})]\\ &=\mathbb{E}_{\tau\sim\pi_{\theta}}[\sum_{t=0}^{T-1}\nabla_{\theta}log\pi_{\theta}(a_{t}|s_{t})R(\tau)]\tag{11} \end{aligned}$

三、REINFORCE

是策略梯度方法中的最基础、最原始的一种算法，由Williams在1992年提出。是第一个明确提出可以通过多次采样来估计等式(11)中的期望（用蒙特卡罗方法：多次采样，平均值逼近理论期望）。
$\begin{aligned} \nabla_{\theta}J(\theta)&=\mathbb{E}_{\tau\sim\pi_{\theta}}[\sum_{t=0}^{T-1}\nabla_{\theta}log\pi_{\theta}(a_{t}|s_{t})R(\tau)]\\ &\approx\frac{1}{N}\sum_{n=1}^{N}\sum_{t=0}^{T_{n}-1}\nabla_{\theta}log\pi_{\theta}(a_{t}|s_{t})R(\tau_{n})\tag{12} \end{aligned}$
等式(12)中的 $R(\tau_{n})=\sum_{t=0}^{T_{n}-1}r_{t}$ ，来源于等式(3)。若采用累积折扣奖励，则 $R(\tau_{n})=\sum_{t=0}^{T_{n}-1}\gamma^{t} r_{t}$ ，来源于等式(4)。

REINFORCE的问题：方差很大，无法收敛。每一次梯度更新有两个方面会引起比较大的方差：
- 去预估整体期望的时候，在每一步，都会与这个轨迹整体的回报 $R(\tau_{n})$ 相乘，相当于每一步都与整体的回报相关，引入了过去的噪声；
- 梯度是利用蒙特卡罗方法采样多条轨迹近似计算，但不同轨迹的回报波动可能很剧烈，导致策略梯度估计不稳定，方差大。
REINFORCE的优化：
- reward to go：只关注每一步策略对于将来轨迹的影响，所以每一步的回报从当前策略开始算，而不是轨迹中的每一步都直接粗暴的与整个轨迹的回报计算。这也可以从策略角度说得通，当前的策略（ $state\rightarrow action$ ）应该只对未来有影响，因为过去的已经发生了，无法产生影响。所以回报可以写为：
  $\begin{aligned} R(\tau_{n},t)=\sum_{t^{'}=t}^{T_{n}-1}r_t^{'}\tag{13} \end{aligned}$
  若采用累积折扣奖励，回报可写为：
  $\begin{aligned} R(\tau_{n},t)=\sum_{t^{'}=t}^{T_{n}-1}\gamma^{t^{'}-t} r_t^{'}\tag{14} \end{aligned}$
- 引入baseline：如果每次更新只看轨迹的回报，相当于只看绝对值，按照当前策略的回报绝对值去度量当前的价值，本身就是不合理的，相当于没有基准，只要回报不是负数，可能就会认为这个方向是好的，实际却不是这样。类似于 a 回报为20，b 回报为40，看似两个回报都是正向的，实际当前策略下的平均回报预期已经是30了，所以 a 本质是不推荐的优化方向。这时要引入当前状态下的预期回报作为baseline。
  那baseline如何获取？可以通过无参数的估计：使用过去训练步骤中回报的滑动平均值作为 baseline。这样可以衡量当前轨迹的回报与历史回报的差异，从而减少梯度估计的方差。Moving Average baseline可以用表示，则策略梯度可以表示为：
  $\begin{aligned} \nabla_{\theta}J(\theta)=\frac{1}{N}\sum_{n=1}^{N}\sum_{t=0}^{T_{n}-1}\nabla_{\theta}log\pi_{\theta}(a_{t}^{(n)}|s_{t}^{(n)})(R(\tau_{n})-b_{MA})\tag{15} \end{aligned}$
备注：无论是采用 $R(\tau_{n})$ ，还是采用 $R(\tau_{n},t)$ ，亦或是采用 $R(\tau_{n})-b_{MA}$ ，都是回报的一种计算方式，PPO章节会介绍回报计算方式的多种形式，这里暂不过多介绍。