【珍藏必备】大模型强化学习优化策略全解析：从PPO到DCPO，助你轻松掌握大模型核心技术

文章全面解析了大模型强化学习中的主流优化策略，包括PPO、GRPO、Dr.GRPO、DAPO、GSPO和DCPO等。详细对比了各方法的模型架构、采样策略、计算方式和优缺点，指出当前优化趋势是提高数据利用率和训练稳定性。文章强调实际应用中需根据业务场景选择合适的策略，避免盲目追求最新技术，而应关注如何发现和解决真实问题。

AI绘画哇哒哒

1293人浏览 · 2025-11-01 08:45:00

AI绘画哇哒哒 · 2025-11-01 08:45:00 发布

当我们在业务领域挖掘问题、定义并优化奖励信号时，适用于 LLM 的强化学习的训练范式也一直在推陈出新。

从 PPO 到 DCPO，优化的 pipeline、trick 和 insights 不尽相同又一脉相承（TRPO），都是“策略优化+约束”的哲学。

从使用的角度出发，最新的未必就是最好的。实际生产活动更在意的是稳定可靠，以及是否高效，如果当前优化的痛点正好被新的策略 cover，那更换策略也未尝不可，但更本质的是，怎么在实践中发现真正的问题。

例如 MoE 模型是否刚需 GSPO 与你的任务类型其实是强相关的，是否真的有/需要那么多高熵 sequence 去摸上限，还是更看重稳定性。

理解各类优化策略的设计出发点，从 trivial 上升到整体，才能在真实场景做好 RL，最近比较受关注的 Agentic RL 虽然上下文/奖励交互定义不同，本质也是这些方法。

在这里插入图片描述

Figure 2:Flow diagram of RLHF in generation stage: the design of OpenRLHF supports flexible placement of multiple models with various algorithm implementations.（https://arxiv.org/html/2405.11143v1）

01 PPO

模型：Actor Model、Reference Model、Critic/Value Model、Reward Model

采样：单一 response 采样

计算：

reward：通过 RM 对完整的 response 打分，稀疏展开到 token 维度，再对每个 token 加上 KL 惩罚，得到奖励 R_t。

value：通过 Critic Model 对 response 的每个 token 进行评分，评估各 token 所处状态的价值，并估计其生成过程中的动作价值期望，得到价值 V_t。

advantage：通过加权多步时序差分误差（TD Error），估计优势函数。

γ 是折扣因子，用于衡量未来奖励的重要性（通常取 0.95–0.99），λ 是平滑参数，一般 0.95，λ=0 时退化为单步 TD，高偏差、低方差，λ=1 时等价于蒙特卡洛，低偏差、高方差。

训的时候，可以分别优化，critic 和 actor 将对方的值作为常量处理，也可以联合优化，具体看框架实现。

总结：

性能好，接近 TRPO 且实现更简单，计算成本更低；
训练稳定性好；
灵活性强，适用多种任务；
超参数敏感，需精细调参；（参考 VAPO 的精调）
探索能力有限（即使可重复使用样本），容易陷入局部最优，容易早收敛；
优势估计准确性问题，奖励反推到每个 token+价值估计准确性影响，容易放大误差（稀疏奖励更明显）

02 GRPO

模型：Policy/Actor Model、Reward Model（非必须）

采样：多采样，对每条 prompt 采样一组 response

计算：

reward：通过规则或奖励模型，结合 prompt/response/业务场景要求进行综合分数的输出，比较方式多样，在组内正确答案间做长度/风格的二次加分也是 ok 的。

advantage：无需价值网络，做组内相对奖励归一化（z-score），用相对排名代替绝对价值，reward 都相同时，优势值为 0，无法更新模型。

loss：token 维度 clip，固定对称范围；组内+样本维度 advantage 平均；默认加 KL 散度约束（K3）。

总结：

无需价值网络（Critic），简化训练流程，但采样计算成本高；
通过组内奖励相对比较（标准化优势估计），减少方差，训练更稳定，若响应质量普遍较差/分布集中，可能影响优化效果；
原始 GRPO 会引入隐式长度偏差，实际的 token 级别优势是 A_i/|o_i|，对正优势样本，越短梯度越大，对负优势样本，越长惩罚被摊薄，梯度反而小。

03 Dr.GRPO

模型&采样同 GRPO

计算改动：

advantage：取消了标准差归一化操作，因为当问题过难或过易时，std 较小，相除之后会导致相应数据权重被加大。（模型可能更偏向于学习一致性高的问题，降低探索能力）

loss：去掉了响应长度归一化项，改为除以固定值（最大生成长度），使 token 贡献与所在 response 长度无关。

mask：改动了 masked_mean 函数，将 mask.sum(axis=dim)替换为固定值（如生成最大长度），避免因不同组的掩码长度不同而导致偏差，提升优化目标的无偏性。

总结：

去除响应长度和难度偏差后，模型训练更稳定，减少因偏差导致的训练波动；
将|o_i|替换为固定值比除以 group 内总 token 数量的方法更稳定；（随机性/偏差降低）
降低错误 response 的长度；
降低对困难样本的学习权重（去除了标准差标准化项）。

04 DAPO

模型同 GRPO

采样改动：

Dynamic Sampling：采样一个 mini_batch 的 prompt，分别进行 rollout。

若某一条 prompt 采样的一组 response 对应所有 reward 全部相同（std=0），则对此条 prompt 丢弃，使用候选的其他 prompt 继续进行采样，直到满足 mini_batch 中所有样本均可贡献有效的梯度。

计算改动：

reward：增加长度惩罚/超长过滤配置项。前者用 Soft Overlong Punishment 对超长内容惩罚（如下），后者将超长的 response 直接丢弃。

总结：

用动态采样/超长惩罚增强梯度信号质量，训练效率/稳定性高；
token 级别损失让每个 token 对训练贡献一致，对长序列训练友好；
clip-higher 优化了探索空间，避免熵坍缩；
对数据量/采样效率依赖高。

05 GSPO

模型&采样同 GRPO

计算改动：

loss：将策略优化的粒度从 token 级别提升至 sequence 级别，把整条回答当成一个整体做重要性采样，在 sequence 维度 clip，非对称 clip 处理。

不过也引入了一个 GSPO-token 的变体，用来满足多轮 RL 的细粒度 advantage（实际只是将 sequence 的重要性权重分发到各 token）。

loss（GSPO）：

importance ratio（GSPO）：

loss（GSPO-token）：

importance ratio（GSPO-token，实际是将 s_i（θ）剔除梯度，并将 token 做归一）：

总结：

通过 sequence-level clip，有效抑制了 token-level 概率波动带来的高方差噪声，解决了 GRPO 在训练时容易出现的崩溃问题；（MoE 模型中 token 的路由容易波动，导致 token 级重要性权重剧烈变化）

对概率计算的精度差异容忍度更高，可以直接使用推理引擎返回的概率值，降低了对训练-推理引擎一致性的要求，可以简化 infra。

06 DCPO

模型&采样同 GRPO

计算改动：

advantage：提出 smooth advantage standardization（SAS）。引入累积历史 response 的奖励分布，计算平滑优势，即使当前步骤奖励相同，也能利用历史数据提供非零梯度信号，提高数据利用率。

当前 advantage：

累计 advantage：

平滑计算（利用 step 加权）：

选取具有较小绝对值的平滑优势作为最终 advantage：（减少累积标准化和当前步骤标准化的波动影响）

loss：

1）提出 Dynamic Adaptive Clipping (DAC)。和 DAPO 类似，都是解决传统固定裁剪边界对所有 token 一视同仁，不利于低概率 token 的探索的问题，根据每个 token 的旧概率 q（x）动态调整 clip 边界。

如果旧概率低，那么新概率范围越大，有利于模型在低概率/高熵场景的探索。

2）只对一个 response 中的 token 进行了平均，不对 group 中的所有 response 进行平均。

总结：

通过 DAC，实现了更加细致的熵控制，token 的裁剪率也更低，训练效率很高；
通过 SAS 有效利用历史数据，数据利用率高；
同样的，由于 DAC 和 SAS 引入，增加了动态裁剪的计算时间+累计优势的存储空间，且动态裁剪超参敏感。

07 小结

以上是个人对 RLVR 任务验证过的主流优化策略的梳理和总结，还有一些比较好的，例如 CISPO，由于篇幅原因暂缓介绍（和 GSPO 类似，提高 token 利用率和训练稳定性）。

大致可以看出的趋势是：提高数据利用率+训练稳定性为主，如果能顺手优化梯度质量就更佳；

实际业务运用中，更为复杂的是如何对症下药，比如对话/数学全混在一起 shuffle 训练，那就会中了 DCPO 作者在 3.1 OTM LOSS 说的样本影响力问题。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：
在这里插入图片描述

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01 教学内容

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例： 带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03 入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05 行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

06 90+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

字节跳动OneTrans：用单一Transformer实现工业级推荐系统，融合特征交互与序列建模！

2048 AI社区

建议收藏：零基础也能玩转AI大模型：提示词工程+微调+RAG实战指南

2048 AI社区

Python 和 Java 在大模型开发中的核心差异是什么？如何快速适应动态类型？

Python和Java在大模型开发中是“分工合作”的关系，不是非此即彼。Python负责前期的模型开发、迭代，Java负责后期的工程化落地、稳定运行，两者的优势刚好互补。Java开发者适应动态类型，不用完全抛弃自己的优势，而是把Java的严谨、工程化思维，和Python的灵活、高效结合起来。按上面的技巧练，1-2个月就能流畅用Python做大模型开发，再加上你本身的Java工程能力，在市场上会更有