青稞社区:https://qingkeai.online/
原文:https://mp.weixin.qq.com/s/kBjKxx0IfP3DNrgHFwrHlA

引言

在大模型后训练阶段,强化学习(Reinforcement Learning, RL)已成为提升模型性能的关键技术。从早期的PPO到最新的SAPO,算法演进始终围绕训练稳定性样本效率计算开销三大核心挑战展开。

1 理论基石:TRPO与策略优化基础

1.1 TRPO的核心思想

信任域策略优化(Trust Region Policy Optimization, TRPO)为现代大模型RL算法奠定了理论基础。其核心思想是通过KL散度约束控制策略更新步长,确保新策略与旧策略的差异不超过信任域范围,从而避免策略突变导致的训练崩溃。TRPO的数学形式化表示为:

max ⁡ θ E s , a ∼ π θ o l d [ π θ ( a ∣ s ) π θ o l d ( a ∣ s ) A θ o l d ( s , a ) ] \max_{\theta} \mathbb{E}_{s,a \sim \pi_{\theta_{old}}} \left[ \frac{\pi_{\theta}(a|s)}{\pi_{\theta_{old}}(a|s)} A_{\theta_{old}}(s,a) \right] θmaxEs,aπθold[πθold(as)πθ(as)Aθold(s,a)]

subject to  E s ∼ π θ o l d [ D K L ( π θ o l d ( ⋅ ∣ s ) ∥ π θ ( ⋅ ∣ s ) ) ] ≤ δ \text{subject to } \mathbb{E}_{s \sim \pi_{\theta_{old}}} [D_{KL}(\pi_{\theta_{old}}(\cdot|s) \parallel \pi_{\theta}(\cdot|s))] \leq \delta subject to Esπθold[DKL(πθold(s)πθ(s))]δ

其中 D K L D_{KL} DKL 表示KL散度, δ \delta δ 是信任域半径。该约束保证了策略更新的单调改进性,但计算复杂度较高(需处理二阶导数),难以直接应用于大规模模型。

1.2 重要性采样机制

TRPO和后续算法均依赖重要性采样(Importance Sampling)技术,允许使用旧策略采集的样本估计新策略的梯度。其核心公式为:

E a ∼ π θ [ f ( a ) ] = E a ∼ π θ o l d [ π θ ( a ∣ s ) π θ o l d ( a ∣ s ) f ( a ) ] \mathbb{E}_{a \sim \pi_{\theta}}[f(a)] = \mathbb{E}_{a \sim \pi_{\theta_{old}}}\left[ \frac{\pi_{\theta}(a|s)}{\pi_{\theta_{old}}(a|s)} f(a) \right] Eaπθ[f(a)]=Eaπθold[πθold(as)πθ(as)f(a)]

这一机制使得策略更新可复用历史数据,但需保持新旧策略分布接近,否则梯度估计将出现显著偏差。

2 实用近似算法:PPO、GRPO与GSPO

2.1 PPO:平衡效率与稳定性的开创性工作

近端策略优化(Proximal Policy Optimization, PPO)通过裁剪机制(Clipping)简化TRPO的约束优化问题,成为首个大模型RL广泛应用的算法。其目标函数设计如下:

L C L I P ( θ ) = E t [ min ⁡ ( r t ( θ ) A t , clip ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A t ) ] L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right) \right] LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1ϵ,1+ϵ)At)]

其中 r t ( θ ) = π θ ( a t ∣ s t ) π θ o l d ( a t ∣ s t ) r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} rt(θ)=πθold(atst)πθ(atst) 为重要性比率, A t A_t At 为优势函数, ϵ \epsilon ϵ 是裁剪阈值(通常设为0.2)。PPO的训练流程包含六个关键步骤:

  1. 轨迹采样:使用当前策略生成响应;
  2. 奖励计算:通过奖励模型计算序列级奖励;
  3. 价值估计:价值模型预测每个token的期望收益;
  4. 优势计算:GAE算法分配token级优势;
  5. 价值模型更新
  6. 策略模型更新

PPO的主要局限性在于需同时训练价值模型,带来额外计算与内存开销,且价值模型的不稳定性会直接影响策略训练。

2.2 GRPO:去除价值模型的简化范式

组相对策略优化(Group Relative Policy Optimization, GRPO)由DeepSeek团队提出,核心创新是舍弃价值模型,直接通过样本组统计估计优势函数。对于同一提示(prompt)采样G条响应,其优势计算为:

A ^ i = r i − μ r σ r \hat{A}_i = \frac{r_i - \mu_r}{\sigma_r} A^i=σrriμr

其中 μ r \mu_r μr σ r \sigma_r σr 分别是组内奖励的均值和标准差。该设计充分利用奖励模型的相对性本质,显著降低资源消耗。GRPO的目标函数保留PPO的裁剪机制,但增加KL散度项防止奖励黑客行为(reward hacking):

L G R P O ( θ ) = E t [ min ⁡ ( r t ( θ ) A ^ t , clip ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A ^ t ) ] + β D K L ( π θ ∥ π ref ) L^{GRPO}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right] + \beta D_{KL}(\pi_{\theta} \parallel \pi_{\text{ref}}) LGRPO(θ)=Et[min(rt(θ)A^t,clip(rt(θ),1ϵ,1+ϵ)A^t)]+βDKL(πθπref)

GRPO在中小规模模型中表现优异,但在长序列或MoE模型中易出现重要性权重方差累积问题,导致训练不稳定。

2.3 GSPO:序列级优化的稳定性突破

组序列策略优化(Group Sequence Policy Optimization, GSPO)由Qwen团队提出,核心贡献是将优化粒度从token级提升至序列级,解决GRPO的方差问题。其重要性比率定义为序列似然比:

s i ( θ ) = exp ⁡ ( 1 T ∑ t = 1 T log ⁡ π θ ( y i t ∣ x , y i < t ) π θ old ( y i t ∣ x , y i < t ) ) s_i(\theta) = \exp\left( \frac{1}{T} \sum_{t=1}^{T} \log \frac{\pi_{\theta}(y_i^t \mid x, y_i^{<t})}{\pi_{\theta_{\text{old}}}(y_i^t \mid x, y_i^{<t})} \right) si(θ)=exp(T1t=1Tlogπθold(yitx,yi<t)πθ(yitx,yi<t))

目标函数相应调整为:

L G S P O ( θ ) = E t [ min ⁡ ( s i ( θ ) A ^ i , clip ( s i ( θ ) , 1 − ϵ , 1 + ϵ ) A ^ i ) ] L^{GSPO}(\theta) = \mathbb{E}_t \left[ \min\left( s_i(\theta) \hat{A}_i, \text{clip}(s_i(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_i \right) \right] LGSPO(θ)=Et[min(si(θ)A^i,clip(si(θ),1ϵ,1+ϵ)A^i)]

GSPO的优势包括:

  • 梯度方向稳定性:序列级比率仅影响梯度强度,不扭曲方向;
  • 长度归一化:避免长序列权重偏差;
  • MoE适配性:对token级路由变化不敏感。

实验表明,GSPO在Qwen3-30B等MoE模型上训练稳定性显著优于GRPO。

2.4 算法对比概览

算法 核心创新 优势 局限性
PPO 裁剪机制约束更新幅度 基础稳定,适配通用场景 需价值模型,资源开销大
GRPO 组内经验优势估计 无需价值模型,训练速度快 Token级方差累积,MoE不稳定
GSPO 序列级重要性比率 梯度稳定,适配MoE模型 硬裁剪浪费有效样本

3 融合与创新:SAPO解析

论文:Soft Adaptive Policy Optimization
链接:https://arxiv.org/abs/2511.20347

3.1 SAPO的设计哲学

软自适应策略优化(Soft Adaptive Policy Optimization, SAPO)是阿里云在GSPO基础上的进一步创新,旨在通过软门控机制平衡稳定性与样本效率。其核心洞察是:GSPO的硬裁剪机制对异策略样本采取“非黑即白”处理,导致部分有效学习信号丢失。

3.2 软门控与自适应温度控制

SAPO用连续的Sigmoid门控函数替代硬裁剪,实现梯度平滑衰减。其目标函数定义为:

L S A P O ( θ ) = E t [ f i , t S A P O ⋅ A ^ t ] L^{SAPO}(\theta) = \mathbb{E}_t \left[ f_{i,t}^{SAPO} \cdot \hat{A}_t \right] LSAPO(θ)=Et[fi,tSAPOA^t]

其中软门控函数为:

f i , t S A P O = 4 τ i ⋅ σ ( τ i ⋅ ( r i , t ( θ ) − 1 ) ) f_{i,t}^{SAPO} = 4\tau_i \cdot \sigma\left( \tau_i \cdot (r_{i,t}(\theta) - 1) \right) fi,tSAPO=4τiσ(τi(ri,t(θ)1))

σ \sigma σ 为Sigmoid函数, τ i \tau_i τi 为温度参数。关键创新在于正负优势非对称温度控制

τ i = { τ p o s if  A ^ i ≥ 0 τ n e g if  A ^ i < 0 \tau_i = \begin{cases} \tau_{pos} & \text{if } \hat{A}_i \geq 0 \\ \tau_{neg} & \text{if } \hat{A}_i < 0 \end{cases} τi={τposτnegif A^i0if A^i<0

通常设置 τ n e g > τ p o s \tau_{neg} > \tau_{pos} τneg>τpos,使负优势样本的梯度衰减更快,抑制其对训练的干扰。

3.3 双特性兼顾机制

SAPO兼具序列一致性token自适应性

在满足小步更新( r i , t ( θ ) ≈ 1 r_{i,t}(\theta) \approx 1 ri,t(θ)1)和序列内低离散性条件下,SAPO退化为平滑版GSPO;

当条件不满足时,自动切换至token级优化模式,保留GRPO的灵活性。
这种设计使其在复杂任务(如数学推理)中表现优异,在Qwen3-VL等多模态模型训练中实现稳定提升。

3.4 与其他改进算法的对比

BAPO:通过动态调整裁剪边界平衡正负样本贡献,但仍依赖硬裁剪;

DeepSeek-V3.2:采用序列掩码过滤低概率负样本,避免过度惩罚;

SAPO优势:软门控提供连续控制,无需手动阈值调优。


1月10日(周六)上午10点,青稞社区和减论平台将联合组织青稞Talk 第102期,SAPO 一作、通义千问算法工程师高畅,将直播分享《从 TRPO 到 SAPO:大模型 RL 算法演进》。

分享嘉宾

高畅,通义千问算法工程师,博士毕业于香港中文大学。Qwen3、Qwen3-VL系列模型核心贡献者。研究方向为LLM RL,在NeurIPS、ACL、EMNLP等会议上发表多篇论文。

主题提纲

从 TRPO 到 SAPO:大模型 RL 算法演进

1、理论基石 TRPO
2、实用近似算法:PPO、GRPO和GSPO
3、融合与创新:SAPO 解析
4、AMA (Ask Me Anything)环节

直播时间

1月10日(周六)10:00 - 11:00

如何观看

Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行直播,欢迎观看~

Bilibili 直播间:
https://live.bilibili.com/32145701

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐