大模型训练新突破：DAPO优化GRPO算法详解，收藏这篇就够了！

本文深入解析GRPO算法在大模型训练中的应用原理，详细阐述了DAPO对GRPO的四大优化：提高clip上界释放低概率token上涨空间、动态采样保障有效梯度、Token-Level Gradient Loss平衡长回答梯度权重、软惩罚机制约束回答长度。这些改进解决了GRPO训练中信号浪费、梯度稀释等问题，显著提升了大模型训练效率与稳定性。

功城师

593人浏览 · 2026-01-02 08:15:00

功城师 · 2026-01-02 08:15:00 发布

简介

在这里插入图片描述

GRPO 回顾

GRPO的损失函数为：

GRPO优势值:

重要性采样：

GRPO 与 PPO 的目标函数可写为：

其中为优势（advantage），clip 操作用于限制更新幅度，防止策略偏离旧策略过远：

衡量当前动作比平均状态好/差：正向为鼓励，负向为惩罚。
衡量新策略 vs 旧策略的概率比：更偏向新策略，更偏向旧策略。

在理解了重要性采样的基本原理后，我们可以进一步探讨它在 PPO/GRPO 中的实际影响：优势函数与比值的符号如何共同决定策略更新的方向与力度。

A 与 r 的符号如何影响训练

假设 clip 参数，，目标函数为：

当时，即动作比期望好，希望增加该动作的概率：

若，更倾向新策略：min 和 clip 会将限制在 1.2（即增幅被限制）
若，更倾向旧策略：min 操作不会触发 clipping，因为本身更小，min 会保留原值取0.8

因此，正优势动作的增幅被限制。

当，即动作比期望差，希望减小该动作的概率：

若，更倾向旧策略：min 会将限制在0.8，即减幅被限制，避免过度惩罚
若，更倾向新策略：min 操作不会限制。因为本身更负，min 会保留原值，相当于允许更大的惩罚

因此，负优势动作的减幅被限制。

所以在和的四种符号组合中，仅同号的两种情况是期望的修正方向：

即使与方向一致，PPO/GRPO 的 clip 通过限制的范围，决定了哪些 token 的梯度会真正参与策略更新，从而避免策略更新幅度过大，保证训练稳定性。

实际中 clip 操作是将梯度直接置为0

实际中 clip 操作是将梯度直接置为0 当且时，clip 操作会将梯度置为 0，相当于抹去该 token 对训练的贡献；同样当且时，clip 也会使其梯度为 0。
一个常见的误区是认为 clip 在反向传播时，会将截断后的值的梯度传回截断前的值进行更新。但实际 clip 机制是被截断前的梯度会被直接清零，不进行更新。

DAPO目标函数

在回顾完GRPO后，我们看DAPO如何对GRPO进行优化，DAPO的的出发点其实非常直接：在实际训练中，GRPO 往往因 clip 范围设置不合理、采样冗余以及长序列梯度被稀释等问题，导致大量训练信号被浪费，所以针对这些问题，DAPO 逐一提出改进，以下为DAPO的损失函数：

改进一：提高clip的上界

GRPO 中 clip 上界较小，会导致低概率但优势为正的关键 token 被抑制。比如 old policy 难得采到一个关键 token且概率极低，而当前模型对此 token 的概率很高，那么的比率就会很大，但却会因为 clip 限制过紧被裁剪，那么低概率关键 token 就几乎没有被很好的训练。

所以 DAPO 引入 Clip-Higher 提高上界，释放低概率关键 token 的上涨空间，解决低概率关键 token 涨幅受限问题。

改进二：动态采样（Dynamic Sampling）

GRPO 训练中，若同一 query 被多次采样，并采样结果的得分相同，就会导致这些样本的优势为 0，进而梯度为 0，无法贡献有效的奖励训练信号。那么实际有效的梯度就会少于采样的次数，导致最后梯度汇集时信息不足以及训练资源的浪费。而且这种效果可能随着训练的进行越来越明显，因为越到后边模型效果越好，给出高分回答的几率就越大，相对优势就越小，而且会出现很多满分的情况。所以DAPO添加了限制，就是如果采样出来的回答全是 0 或者 1 就继续采样，保证采样具有得分上的多样性：