【珍藏必备】大模型强化学习优化策略全解析:从PPO到DCPO,助你轻松掌握大模型核心技术
文章全面解析了大模型强化学习中的主流优化策略,包括PPO、GRPO、Dr.GRPO、DAPO、GSPO和DCPO等。详细对比了各方法的模型架构、采样策略、计算方式和优缺点,指出当前优化趋势是提高数据利用率和训练稳定性。文章强调实际应用中需根据业务场景选择合适的策略,避免盲目追求最新技术,而应关注如何发现和解决真实问题。
当我们在业务领域挖掘问题、定义并优化奖励信号时,适用于 LLM 的强化学习的训练范式也一直在推陈出新。
从 PPO 到 DCPO,优化的 pipeline、trick 和 insights 不尽相同又一脉相承(TRPO),都是“策略优化+约束”的哲学。
从使用的角度出发,最新的未必就是最好的。实际生产活动更在意的是稳定可靠,以及是否高效,如果当前优化的痛点正好被新的策略 cover,那更换策略也未尝不可,但更本质的是,怎么在实践中发现真正的问题。
例如 MoE 模型是否刚需 GSPO 与你的任务类型其实是强相关的,是否真的有/需要那么多高熵 sequence 去摸上限,还是更看重稳定性。
理解各类优化策略的设计出发点,从 trivial 上升到整体,才能在真实场景做好 RL,最近比较受关注的 Agentic RL 虽然上下文/奖励交互定义不同,本质也是这些方法。

Figure 2:Flow diagram of RLHF in generation stage: the design of OpenRLHF supports flexible placement of multiple models with various algorithm implementations.(https://arxiv.org/html/2405.11143v1)
01 PPO
模型:Actor Model、Reference Model、Critic/Value Model、Reward Model
采样:单一 response 采样
计算:
reward:通过 RM 对完整的 response 打分,稀疏展开到 token 维度,再对每个 token 加上 KL 惩罚,得到奖励 R_t。
value:通过 Critic Model 对 response 的每个 token 进行评分,评估各 token 所处状态的价值,并估计其生成过程中的动作价值期望,得到价值 V_t。
advantage:通过加权多步时序差分误差(TD Error),估计优势函数。
γ 是折扣因子,用于衡量未来奖励的重要性(通常取 0.95–0.99),λ 是平滑参数,一般 0.95,λ=0 时退化为单步 TD,高偏差、低方差,λ=1 时等价于蒙特卡洛,低偏差、高方差。

训的时候,可以分别优化,critic 和 actor 将对方的值作为常量处理,也可以联合优化,具体看框架实现。
总结:
- 性能好,接近 TRPO 且实现更简单,计算成本更低;
 - 训练稳定性好;
 - 灵活性强,适用多种任务;
 - 超参数敏感,需精细调参;(参考 VAPO 的精调)
 - 探索能力有限(即使可重复使用样本),容易陷入局部最优,容易早收敛;
 - 优势估计准确性问题,奖励反推到每个 token+价值估计准确性影响,容易放大误差(稀疏奖励更明显)
 
02 GRPO
模型:Policy/Actor Model、Reward Model(非必须)
采样:多采样,对每条 prompt 采样一组 response
计算:
reward:通过规则或奖励模型,结合 prompt/response/业务场景要求进行综合分数的输出,比较方式多样,在组内正确答案间做长度/风格的二次加分也是 ok 的。
advantage:无需价值网络,做组内相对奖励归一化(z-score),用相对排名代替绝对价值,reward 都相同时,优势值为 0,无法更新模型。

loss:token 维度 clip,固定对称范围;组内+样本维度 advantage 平均;默认加 KL 散度约束(K3)。

总结:
- 无需价值网络(Critic),简化训练流程,但采样计算成本高;
 - 通过组内奖励相对比较(标准化优势估计),减少方差,训练更稳定,若响应质量普遍较差/分布集中,可能影响优化效果;
 - 原始 GRPO 会引入隐式长度偏差,实际的 token 级别优势是 A_i/|o_i|,对正优势样本,越短梯度越大,对负优势样本,越长惩罚被摊薄,梯度反而小。
 
03 Dr.GRPO
模型&采样同 GRPO
计算改动:
advantage:取消了标准差归一化操作,因为当问题过难或过易时,std 较小,相除之后会导致相应数据权重被加大。(模型可能更偏向于学习一致性高的问题,降低探索能力)

loss:去掉了响应长度归一化项,改为除以固定值(最大生成长度),使 token 贡献与所在 response 长度无关。

mask:改动了 masked_mean 函数,将 mask.sum(axis=dim)替换为固定值(如生成最大长度),避免因不同组的掩码长度不同而导致偏差,提升优化目标的无偏性。

总结:
- 去除响应长度和难度偏差后,模型训练更稳定,减少因偏差导致的训练波动;
 - 将|o_i|替换为固定值比除以 group 内总 token 数量的方法更稳定;(随机性/偏差降低)
 - 降低错误 response 的长度;
 - 降低对困难样本的学习权重(去除了标准差标准化项)。
 
04 DAPO
模型同 GRPO
采样改动:
Dynamic Sampling:采样一个 mini_batch 的 prompt,分别进行 rollout。
若某一条 prompt 采样的一组 response 对应所有 reward 全部相同 (std=0),则对此条 prompt 丢弃,使用候选的其他 prompt 继续进行采样,直到满足 mini_batch 中所有样本均可贡献有效的梯度。

计算改动:
reward:增加长度惩罚/超长过滤配置项。前者用 Soft Overlong Punishment 对超长内容惩罚(如下),后者将超长的 response 直接丢弃。



总结:
- 用动态采样/超长惩罚增强梯度信号质量,训练效率/稳定性高;
 - token 级别损失让每个 token 对训练贡献一致,对长序列训练友好;
 - clip-higher 优化了探索空间,避免熵坍缩;
 - 对数据量/采样效率依赖高。
 
05 GSPO
模型&采样同 GRPO
计算改动:
loss:将策略优化的粒度从 token 级别提升至 sequence 级别,把整条回答当成一个整体做重要性采样,在 sequence 维度 clip,非对称 clip 处理。
不过也引入了一个 GSPO-token 的变体,用来满足多轮 RL 的细粒度 advantage(实际只是将 sequence 的重要性权重分发到各 token)。
loss(GSPO):

importance ratio(GSPO):

loss(GSPO-token):

importance ratio(GSPO-token,实际是将 s_i(θ) 剔除梯度,并将 token 做归一):

总结:
通过 sequence-level clip,有效抑制了 token-level 概率波动带来的高方差噪声,解决了 GRPO 在训练时容易出现的崩溃问题;(MoE 模型中 token 的路由容易波动,导致 token 级重要性权重剧烈变化)

对概率计算的精度差异容忍度更高,可以直接使用推理引擎返回的概率值,降低了对训练-推理引擎一致性的要求,可以简化 infra。
06 DCPO
模型&采样同 GRPO
计算改动:
advantage:提出 smooth advantage standardization(SAS)。引入累积历史 response 的奖励分布,计算平滑优势,即使当前步骤奖励相同,也能利用历史数据提供非零梯度信号,提高数据利用率。
当前 advantage:

累计 advantage:

平滑计算(利用 step 加权):

选取具有较小绝对值的平滑优势作为最终 advantage:(减少累积标准化和当前步骤标准化的波动影响)

loss:
1)提出 Dynamic Adaptive Clipping (DAC)。和 DAPO 类似,都是解决传统固定裁剪边界对所有 token 一视同仁,不利于低概率 token 的探索的问题,根据每个 token 的旧概率 q(x) 动态调整 clip 边界。
如果旧概率低,那么新概率范围越大,有利于模型在低概率/高熵场景的探索。
2)只对一个 response 中的 token 进行了平均,不对 group 中的所有 response 进行平均。

总结:
- 通过 DAC,实现了更加细致的熵控制,token 的裁剪率也更低,训练效率很高;
 - 通过 SAS 有效利用历史数据,数据利用率高;
 - 同样的,由于 DAC 和 SAS 引入,增加了动态裁剪的计算时间+累计优势的存储空间,且动态裁剪超参敏感。
 
07 小结
以上是个人对 RLVR 任务验证过的主流优化策略的梳理和总结,还有一些比较好的,例如 CISPO,由于篇幅原因暂缓介绍(和 GSPO 类似,提高 token 利用率和训练稳定性)。
大致可以看出的趋势是:提高数据利用率+训练稳定性为主,如果能顺手优化梯度质量就更佳;
实际业务运用中,更为复杂的是如何对症下药,比如对话/数学全混在一起 shuffle 训练,那就会中了 DCPO 作者在 3.1 OTM LOSS 说的样本影响力问题。
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01 教学内容

- 
  
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
 - 
  
大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
 
02适学人群
应届毕业生: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。

vx扫描下方二维码即可
本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03 入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:
04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
05 行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!
06 90+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
更多推荐
 

所有评论(0)