周六上午10点！和SAPO一作聊聊大模型 RL 算法演进

摘要：本文系统梳理了大模型强化学习（RL）算法的演进历程，从理论基石TRPO到实用算法PPO、GRPO、GSPO，再到最新融合创新算法SAPO。TRPO奠定了KL散度约束的理论基础，PPO通过裁剪机制实现平衡优化，GRPO创新性地舍弃价值模型，GSPO提升至序列级优化解决稳定性问题。SAPO则通过软门控机制和自适应温度控制，在保持稳定性的同时提升样本效率。1月10日青稞Talk第102期将邀请通义

青稞社区.

908人浏览 · 2026-01-07 14:40:44

青稞社区. · 2026-01-07 14:40:44 发布

青稞社区：https://qingkeai.online/
原文：https://mp.weixin.qq.com/s/kBjKxx0IfP3DNrgHFwrHlA

引言

在大模型后训练阶段，强化学习（Reinforcement Learning, RL）已成为提升模型性能的关键技术。从早期的PPO到最新的SAPO，算法演进始终围绕训练稳定性、样本效率和计算开销三大核心挑战展开。

1 理论基石：TRPO与策略优化基础

1.1 TRPO的核心思想

信任域策略优化（Trust Region Policy Optimization, TRPO）为现代大模型RL算法奠定了理论基础。其核心思想是通过KL散度约束控制策略更新步长，确保新策略与旧策略的差异不超过信任域范围，从而避免策略突变导致的训练崩溃。TRPO的数学形式化表示为：

$\max_{\theta} \mathbb{E}_{s,a \sim \pi_{\theta_{old}}} \left[ \frac{\pi_{\theta}(a|s)}{\pi_{\theta_{old}}(a|s)} A_{\theta_{old}}(s,a) \right]$

$\text{subject to } \mathbb{E}_{s \sim \pi_{\theta_{old}}} [D_{KL}(\pi_{\theta_{old}}(\cdot|s) \parallel \pi_{\theta}(\cdot|s))] \leq \delta$

其中 $D_{KL}$ 表示KL散度， $\delta$ 是信任域半径。该约束保证了策略更新的单调改进性，但计算复杂度较高（需处理二阶导数），难以直接应用于大规模模型。

1.2 重要性采样机制

TRPO和后续算法均依赖重要性采样（Importance Sampling）技术，允许使用旧策略采集的样本估计新策略的梯度。其核心公式为：

$\mathbb{E}_{a \sim \pi_{\theta}}[f(a)] = \mathbb{E}_{a \sim \pi_{\theta_{old}}}\left[ \frac{\pi_{\theta}(a|s)}{\pi_{\theta_{old}}(a|s)} f(a) \right]$

这一机制使得策略更新可复用历史数据，但需保持新旧策略分布接近，否则梯度估计将出现显著偏差。

2 实用近似算法：PPO、GRPO与GSPO

2.1 PPO：平衡效率与稳定性的开创性工作

近端策略优化（Proximal Policy Optimization, PPO）通过裁剪机制（Clipping）简化TRPO的约束优化问题，成为首个大模型RL广泛应用的算法。其目标函数设计如下：

$L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right) \right]$

其中 $r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$ 为重要性比率， $A_t$ 为优势函数， $\epsilon$ 是裁剪阈值（通常设为0.2）。PPO的训练流程包含六个关键步骤：

轨迹采样：使用当前策略生成响应；
奖励计算：通过奖励模型计算序列级奖励；
价值估计：价值模型预测每个token的期望收益；
优势计算：GAE算法分配token级优势；
价值模型更新；
策略模型更新。

PPO的主要局限性在于需同时训练价值模型，带来额外计算与内存开销，且价值模型的不稳定性会直接影响策略训练。

2.2 GRPO：去除价值模型的简化范式

组相对策略优化（Group Relative Policy Optimization, GRPO）由DeepSeek团队提出，核心创新是舍弃价值模型，直接通过样本组统计估计优势函数。对于同一提示（prompt）采样G条响应，其优势计算为：

$\hat{A}_i = \frac{r_i - \mu_r}{\sigma_r}$

其中 $\mu_r$ 和 $\sigma_r$ 分别是组内奖励的均值和标准差。该设计充分利用奖励模型的相对性本质，显著降低资源消耗。GRPO的目标函数保留PPO的裁剪机制，但增加KL散度项防止奖励黑客行为（reward hacking）：

$L^{GRPO}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right] + \beta D_{KL}(\pi_{\theta} \parallel \pi_{\text{ref}})$

GRPO在中小规模模型中表现优异，但在长序列或MoE模型中易出现重要性权重方差累积问题，导致训练不稳定。

2.3 GSPO：序列级优化的稳定性突破

组序列策略优化（Group Sequence Policy Optimization, GSPO）由Qwen团队提出，核心贡献是将优化粒度从token级提升至序列级，解决GRPO的方差问题。其重要性比率定义为序列似然比：

$s_i(\theta) = \exp\left( \frac{1}{T} \sum_{t=1}^{T} \log \frac{\pi_{\theta}(y_i^t \mid x, y_i^{<t})}{\pi_{\theta_{\text{old}}}(y_i^t \mid x, y_i^{<t})} \right)$

目标函数相应调整为：

$L^{GSPO}(\theta) = \mathbb{E}_t \left[ \min\left( s_i(\theta) \hat{A}_i, \text{clip}(s_i(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_i \right) \right]$

GSPO的优势包括：

梯度方向稳定性：序列级比率仅影响梯度强度，不扭曲方向；
长度归一化：避免长序列权重偏差；
MoE适配性：对token级路由变化不敏感。

实验表明，GSPO在Qwen3-30B等MoE模型上训练稳定性显著优于GRPO。

2.4 算法对比概览

算法	核心创新	优势	局限性
PPO	裁剪机制约束更新幅度	基础稳定，适配通用场景	需价值模型，资源开销大
GRPO	组内经验优势估计	无需价值模型，训练速度快	Token级方差累积，MoE不稳定
GSPO	序列级重要性比率	梯度稳定，适配MoE模型	硬裁剪浪费有效样本

3 融合与创新：SAPO解析

论文：Soft Adaptive Policy Optimization
链接：https://arxiv.org/abs/2511.20347

3.1 SAPO的设计哲学

软自适应策略优化（Soft Adaptive Policy Optimization, SAPO）是阿里云在GSPO基础上的进一步创新，旨在通过软门控机制平衡稳定性与样本效率。其核心洞察是：GSPO的硬裁剪机制对异策略样本采取“非黑即白”处理，导致部分有效学习信号丢失。

3.2 软门控与自适应温度控制

SAPO用连续的Sigmoid门控函数替代硬裁剪，实现梯度平滑衰减。其目标函数定义为：

$L^{SAPO}(\theta) = \mathbb{E}_t \left[ f_{i,t}^{SAPO} \cdot \hat{A}_t \right]$

其中软门控函数为：

$f_{i,t}^{SAPO} = 4\tau_i \cdot \sigma\left( \tau_i \cdot (r_{i,t}(\theta) - 1) \right)$

$\sigma$ 为Sigmoid函数， $\tau_i$ 为温度参数。关键创新在于正负优势非对称温度控制：

$\tau_i = \begin{cases} \tau_{pos} & \text{if } \hat{A}_i \geq 0 \\ \tau_{neg} & \text{if } \hat{A}_i < 0 \end{cases}$

通常设置 $\tau_{neg} > \tau_{pos}$ ，使负优势样本的梯度衰减更快，抑制其对训练的干扰。

3.3 双特性兼顾机制

SAPO兼具序列一致性与token自适应性：

在满足小步更新（ $r_{i,t}(\theta) \approx 1$ ）和序列内低离散性条件下，SAPO退化为平滑版GSPO；

当条件不满足时，自动切换至token级优化模式，保留GRPO的灵活性。
这种设计使其在复杂任务（如数学推理）中表现优异，在Qwen3-VL等多模态模型训练中实现稳定提升。

3.4 与其他改进算法的对比

BAPO：通过动态调整裁剪边界平衡正负样本贡献，但仍依赖硬裁剪；

DeepSeek-V3.2：采用序列掩码过滤低概率负样本，避免过度惩罚；

SAPO优势：软门控提供连续控制，无需手动阈值调优。

1月10日（周六）上午10点，青稞社区和减论平台将联合组织青稞Talk 第102期，SAPO 一作、通义千问算法工程师高畅，将直播分享《从 TRPO 到 SAPO：大模型 RL 算法演进》。

分享嘉宾

高畅，通义千问算法工程师，博士毕业于香港中文大学。Qwen3、Qwen3-VL系列模型核心贡献者。研究方向为LLM RL，在NeurIPS、ACL、EMNLP等会议上发表多篇论文。

主题提纲

从 TRPO 到 SAPO：大模型 RL 算法演进

1、理论基石 TRPO
2、实用近似算法：PPO、GRPO和GSPO
3、融合与创新：SAPO 解析
4、AMA （Ask Me Anything）环节

直播时间

1月10日(周六)10:00 - 11:00

如何观看

Talk 将在青稞社区【视频号：青稞AI、Bilibili：青稞AI】上进行直播，欢迎观看～

Bilibili 直播间：
https://live.bilibili.com/32145701

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

阿里云为何要将数据采集开发套件开源

2048 AI社区

【AI大模型开发】-Embedding 与向量数据库：从基础概念到实战应用

2048 AI社区

【2026年精选毕业设计：智能实验室预约与资源协同管理系统（含论文+源码+PPT+开题报告+任务书+答辩讲解）】

2048 AI社区

所有评论(0)

查看更多评论

青稞社区.

@QingKeLab

已为社区贡献13条内容