【datawhale学习-post training】task3-DPO

鸿鹄一夏

709人浏览 · 2025-11-14 11:53:21

鸿鹄一夏 · 2025-11-14 11:53:21 发布

Topic-DPO

定义
从RLHF到DPO
题外话：为什么目标函数要有KL约束？
题外话：Reward Hacking

本文基于 DeepLearning.AI 出品的短课《Post‑training of LLMs》，并在datawhale组织帮助下学习：github

定义

DPO = Direct Preference Optimization（直接偏好优化），场景：对同一个提示 Prompt，之前的模型会生成两段模型回复 A 和 B，标注者选择其中“更好”的那个。这样会形成data（人类标注的偏好数据对）。DPO 不需要训练reward model，也不使用强化学习，而是使用一个loss function，直接让模型提高偏好回复的概率、降低被拒绝回复的概率，同时保持与初始模型的 KL 约束，从而完成了人类偏好的对齐。

之所以要提到强化学习和奖励模型，是因为它们是 DPO 出现之前最主流的做法，也就是 RLHF。

从RLHF到DPO

RLHF-基本流程

在这里插入图片描述

如图，RLHF基本分为三个阶段：

SFT：人类写一些高质量的问答，模型根据这些示例进行监督学习。模型可以基本做对，但是可能不符合用户偏好。回答质量/风格不是用户真正想要的。
Training a Reward Model：标注者对两个模型回答进行比较，选出 ta 心目中更好的那个回答，随后用这个偏好数据去训练一个reward model。
PPO training：最后用PPO根据这个reward model去优化模型参数。

tips：回头看我前面对 DPO 的介绍，你会发现它的思路和 RLHF 不一样。
DPO 是直接用偏好数据来更新模型参数，根据一个设计好的 loss function 直接做优化。它不需要先训练一个 reward model，然后再用这个 reward model 去指导模型优化。

RLHF-数学推导

reward model

奖励模型大致分两种：
一种是偏好式奖励。纯文本任务没有标准答案，没法直接打分，所以通常会让标注者比较两个回答，看哪个更好，从而得到偏好数据。
另一种是可验证奖励。比如代码、数学题这类任务有明确的正确答案，直接对照真值就能给出奖励。
下面我们只聊第一种：偏好数据。

我们一直说，是拿偏好数据去训练一个reward model，最后的效果是：给一个数据对 ( 模型的输入prompt和模型的输出回答y )，reward model能让“人类偏好的回答”获得高奖励值。因为它通过之前的"比较"学习已经大概明白人类喜欢什么回答不喜欢什么回答。
首先我们要定义偏好数据：
$D_{\text{pref}} = \{(x, y^+, y^-)\}$
$x$ : prompt ; $y^+$ ：人类更喜欢的回答； $y^-$ ：人类较不喜欢的回答

面对这种成对偏好，我们需要将其转化为一个可学习的概率模型。这里我们用Bradley–Terry 模型建模，即 $P(y^+ \succ y^-)$ , 我们想知道 “优质回答” 被偏好胜过 “劣质回答” 的概率是多少？
那么我们假设每个回答都有一个“评分”，这实际上等价于奖励值： $r_\phi(x, y)$ , 即一个数据对 ( x：模型的输入prompt；y：模型的输出回答) 的一个奖励值。
利用Bradley–Terry 模型，我们即可建模：
$P(y^+ \succ y^-) =\frac{e^{r_\phi(x, y^+)}}{e^{r_\phi(x, y^+)} + e^{r_\phi(x, y^-)}}$

我们进一步化简：
$\begin{aligned} P(y^+ \succ y^-) &= \frac{e^{r_\phi(x, y^+)}}{e^{r_\phi(x, y^+)} + e^{r_\phi(x, y^-)}} \\ &= \frac{e^{r_\phi(x, y^+)}/e^{r_\phi(x, y^-)}}{e^{r_\phi(x, y^+)}/e^{r_\phi(x, y^-)} + e^{r_\phi(x, y^-)}/e^{r_\phi(x, y^-)}} \\ &= \frac{e^{r_\phi(x, y^+)-r_\phi(x, y^-)}}{e^{r_\phi(x, y^+)-r_\phi(x, y^-)} + 1} \\ &= \frac{1}{1 + e^{-(r_\phi(x, y^+)-r_\phi(x, y^-))}} \\ &= \sigma(r_\phi(x, y^+)-r_\phi(x, y^-)) \end{aligned}$
其中 sigmoid 函数定义为：
$\sigma(z) = \frac{1}{1 + e^{-z}}$
在优化模型的时候，我们要最大化样本概率，那我们对样本建模的是 $P(y^+ \succ y^-)$ ，所以我们希望 $\max_\phi P(y^+ \succ y^-)$

然而训练神经网络不直接最大化概率，而是最大化 log-likelihood，即最小化负的log-likelihood。负的log-likelihood形式如下：
$\mathcal{L}_{\text{RM}}(\phi) = - \mathbb{E}_{(x, y^+, y^-)} \left[ \log\sigma( r_\phi(x, y^+) - r_\phi(x, y^-)) \right]$
最终训练目标为：
$\phi^* = \arg\min_\phi \mathcal{L}_{\text{RM}}(\phi)$

所以最后我们从数据中学习到了一个参数化奖励函数： $r_\phi(x, y)$ ，使得对一个数据对 ( x：模型的输入prompt；y：模型的输出回答)会有一个奖励值的输出。

PPO

此阶段的输入：

初始策略模型：SFT 训练得到的 $\pi_{\theta_{\text{SFT}}}$
奖励信号：训练好的奖励函数 $r_{\phi^*}(x, y)$

核心目标：优化策略模型参数 $\theta$ ，使其生成的回答既满足高奖励，又不偏离SFT模型的基础能力。

此时整个 RLHF 阶段的优化目标为：
$\max_\theta \mathbb{E}_{y \sim \pi_\theta} \left[ r_{\phi^*}(x, y) - \beta \cdot \text{KL} \left[ \pi_\theta(\cdot|x) \parallel \pi_{\theta_{\text{SFT}}}(\cdot|x)\right] \right]$
其中第一项：r是奖励项，鼓励模型生成高评分回答；第二项：KL散度正则项，使得优化前和优化后不要相差太大。

到这里，我们已经得到了要优化的目标。那么接下来问题来了：我们要怎么优化它？

注意这个目标的形式——就是想让 reward 最大化。是不是感觉有点眼熟？这就是典型的强化学习的目标。我们再回过头来看，其实 LLM 可以视为一个policy，因为它本质上定义了一个“在状态 x 下采取动作 y 的概率分布”。
既然 LLM 天然就是一个策略，而我们又想让它得到更高的 reward，
那顺理成章的做法就是：

用 RL 里基于 policy 的优化方法来更新 LLM，让它输出的内容更符合奖励模型的偏好。

概念	在 RL 中	在 LLM中
状态（state）	环境状态 $s$	prompt + 已生成 token，即 $x, y_{<t}$
动作（action）	选择一个动作 $a$	生成下一个 token $y_t$
策略（policy）	$\pi_\theta(a\mid s)$ ：在状态 $s$ 下选择动作 $a$ 的概率	$\pi_\theta(y_t\mid x, y_{<t})$ ：在当前状态下生成下一个 token 的概率
轨迹（trajectory）	$a_1, a_2, \dots, a_T$	生成的整个序列 $y_1, y_2, \dots, y_T$
奖励（reward）	环境给出的奖励 $r (s, a)$	奖励模型给整段输出的得分 $r_\phi(x, y)$ ,即类似传统RL里面的G
优化目标	最大化期望奖励	最大化回复质量（来自奖励模型）
用的优化算法	PPO	PPO（RLHF）

Why PPO？
为什么一定要用PPO，而不是其他policy-based RL算法？因为on-policy 方法中最稳定的就是 PPO。相比之下，REINFORCE 不稳定，TRPO 太贵。
那么，我们就能把PPO的很多trick(ratio + clipping)搬到这里近似去优化我们的目标。

DPO

目标推导

回顾目标：在 RLHF 里，对一个给定的 prompt $x$ ，我们用奖励模型 $r_\phi(x,y)$ 和 KL 正则去优化策略 $\pi_\theta$
$\max_\theta \mathbb{E}_{y \sim \pi_\theta} \left[ r_{\phi}(x, y) - \beta \cdot \text{KL} \left[ \pi_\theta(\cdot|x) \parallel \pi_{\text{ref}}(\cdot|x)\right] \right]$

对固定的 $x$ ，把问题看作对分布 $\pi(\cdot \mid x)$ 的变分问题：

$\max_\pi\sum_y\pi(y\mid x)r_\phi(x,y)-\beta\sum_y\pi(y\mid x)\log\frac{\pi(y\mid x)}{\pi_\mathrm{ref}(y\mid x)}$

再加上归一化约束 $\sum_y \pi(y\mid x)=1$ 的拉格朗日乘子，对 $\pi(y\mid x)$ 求偏导并整理，可以得到最优策略的形式为：

$\pi^{*}(y\mid x)\propto\pi_{\mathrm{ref}}(y\mid x)\exp\left(\frac{1}{\beta}r_\phi(x,y)\right)$
即
$\pi^{*}(y\mid x)=\frac{1}{Z(x)}\pi_{\mathrm{ref}}(y\mid x)\exp\left(\frac{1}{\beta}r_{\phi}(x,y)\right)$

其中 $Z (x)$ 是归一化常数。

对上式取对数，可以写成：

$r_\phi(x,y)=\beta\left(\log\pi^{*}(y\mid x)-\log\pi_{\mathrm{ref}}(y\mid x)\right)+C(x)$

代回 Bradley–Terry 偏好模型

之前我们得到：
$P(y^+\succ y^-\mid x)=\sigma\left(r_\phi(x,y^+)-r_\phi(x,y^-)\right)$

用上一节得到的 $r_\phi$ 表达式代入：
$P(y^+\succ y^-\mid x)=\sigma\Big(\underbrace{\beta\Big[\log\pi^{*}(y^+\mid x)-\log\pi^{*}(y^-\mid x)}_{\text{新策略的}\log\text{概率差}}-(\underbrace{\log\pi_{\text{ref}}(y^+\mid x)-\log\pi_{\text{ref}}(y^-\mid x))}_{\text{参考策略的}\log\text{概率差}}\Big]\Big)$

$P(y^+\succ y^-\mid x)=\sigma\left(\beta\left(\log\left(\frac{\pi^*(y^+\mid x)}{\pi^*(y^-\mid x)}\right)-\log\left(\frac{\pi_\mathrm{ref}(y^+\mid x)}{\pi_\mathrm{ref}(y^-\mid x)}\right)\right)\right)$

所以得出关键信息：

偏好概率 $P(y^+ \succ y^- \mid x)$ 可以仅用策略的对数概率比（相对于参考策略）来表示，不需要显式地单独建模 $r_\phi$ 。

此时，损失函数依旧是要求 $\max_\phi P(y^+ \succ y^-)$

所以我们可以用数据直接去优化我的LLM（policy）参数, 而不需要reward model：
$\mathcal{L}(\beta)=-\mathbb{E}_{(x,y^+,y^-)}[\log\sigma\left(\beta\left(\log\frac{\pi^{*}(y_{i}^{+}|x_{i})}{\pi^{*}(y_{i}^{-}|x_{i})}-\log\frac{\pi_{\mathrm{ref}}(y_{i}^{+}|x_{i})}{\pi_{\mathrm{ref}}(y_{i}^{-}|x_{i})}\right)\right)]$

题外话：为什么目标函数要有KL约束？

我们之前理所当然的认定：
核心目标：优化策略模型参数 $\theta$ ，使其生成的回答既满足高奖励，又不偏离SFT模型的基础能力。

Q：但是为什么要限制sft策略和优化后的策略不能太远呢？
A：这是因为reward model只在 SFT 分布附近是正确的。
我们的训练数据是用 SFT 模型生成的数据标注出来的。它从没见过“奇怪的”token分布，所以当策略偏离数据分布（OOD），它就无法提供正确的 reward。输出错误的 reward → RL 的梯度方向变成错误的 → 策略发散。所以 KL penalty 是用来限制我们在“可控区域”内优化，不让策略跑到 reward model 的 OOD 区域去。

总之：
策略偏离分布 → RM 无法泛化 → 策略容易崩溃。
所以PPO只能在sft模型附近一块区域微调模型。