note

  • 相关讨论:SFT为啥比RL更容易导致遗忘
    • RL的本质就是一个sampling based 的优化过程,我们有一个分布,采样得到的轨迹有的reward大,有的reward小,那么我们就增大采reward大的轨迹的概率,减小采reward小的轨迹的概率。这个过程中我们希望模型更新要足够稳健,不能过于激进。
    • 打个比方,比如投资股票,如果看到某只股票突然猛涨或者猛跌就立马追涨杀跌,那么这样的策略大概率是很难稳定的获利的。所以PPO比之前的RL算法效果好的一个最本质的原因就是clip掉了那些有很大reward涨落的轨迹,让模型的优化更加稳定。
    • 所以从这个角度看,RL这个算法天然地就会限制LLM模型后训练之后和之前的差别(更像是分布的锐化,而非参数空间的巨大改变),所以遗忘现象没有普通的sft严重也是很合理的事情了。
  • 《Does RLVR enable LLMs to self-improve》论文发现:
    • RLVR 后模型的能力完全在基础模型的能力范围内,只是搜索效率提高了,能更高效地找到问题的解。而基础模型不能解决的问题,RLVR 的模型一样不能解决。
    • 在 @1 的时候,RL 模型的表现都会好于基模,但是随着 K 的增大,和基模的表现越来越接近,直到在 K 较大时 RL 被基模超越。而且这个结论对于各种 RL 方法(PPO/GRPO等),在各种评估测试集(数学、代码、视觉推理),各种模型大小上面都适用。

一、研究背景

论文:Does RLVR enable LLMs to self-improve?

  • 研究问题:这篇文章探讨了强化学习(RL)在提升大型语言模型(LLMs)推理能力方面的潜力,特别是是否超越了基础模型的推理能力。
  • 研究难点:该问题的研究难点包括:如何准确评估LLMs的推理能力边界,以及现有的RLVR方法是否能够引入新的推理模式。
  • 相关工作:该问题的研究相关工作包括OpenAI的o1模型、DeepSeek-R1等,这些工作展示了LLMs在复杂逻辑任务中的显著进步,但对其推理能力的提升机制尚不明确。

(1)可验证奖励:首先,定义了一个LLM生成序列 y = ( y 1 , … , y T ) y = (y_1, \ldots, y_T) y=(y1,,yT),并引入一个确定性验证器 V \mathcal{V} V,返回二进制奖励 r ∈ { 0 , 1 } r \in \{0, 1\} r{0,1},其中 r = 1 r = 1 r=1 当且仅当模型的最终答案完全正确。

RL的目标是最大化期望奖励:
J ( θ ) = E x ∼ D [ E y ∼ π θ ( ⋅ ∣ x ) [ r ] ] J(\theta) = \mathbb{E}_{x \sim \mathcal{D}} \left[ \mathbb{E}_{y \sim \pi_{\theta}(\cdot|x)} [r] \right] J(θ)=ExD[Eyπθ(x)[r]]

其中 D \mathcal{D} D 是提示的分布。

(2)RLVR算法:使用近端策略优化算法,其目标函数为:
L CLIP = E [ min ⁡ ( r t ( θ ) A t , clip ⁡ ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A t ) ] \mathcal{L}_{\text{CLIP}} = \mathbb{E} \left[ \min \left( r_t(\theta) A_t, \operatorname{clip} \left( r_t(\theta), 1-\epsilon, 1+\epsilon \right) A_t \right) \right] LCLIP=E[min(rt(θ)At,clip(rt(θ),1ϵ,1+ϵ)At)]

其中:

  • r t ( θ ) = π θ ( y t ∣ x , y < t ) π θ old ( y t ∣ x , y < t ) r_t(\theta) = \dfrac{\pi_\theta (y_t \mid x, y_{<t})}{\pi_{\theta_{\text{old}}} (y_t \mid x, y_{<t})} rt(θ)=πθold(ytx,y<t)πθ(ytx,y<t)
  • A t A_t At 是由价值网络 V ϕ V_\phi Vϕ 估计的优势

(3)评估指标:采用 pass@k 指标来评估推理能力边界,定义为如果任意一个样本通过验证,则问题视为解决。平均 pass@k 反映了模型在 k 次尝试内解决问题的问题比例。

二、相关现象

RLVR 后模型的能力完全在基础模型的能力范围内,只是搜索效率提高了,能更高效地找到问题的解。而基础模型不能解决的问题,RLVR 的模型一样不能解决。

在这里插入图片描述

三、实验结论

(1)数学推理:在小k值(如k=1)时,RL训练模型表现优于基础模型,但随着k值的增加,基础模型在所有基准上均超过RL训练模型。这表明RLVR增加了正确样本的采样概率,但缩小了可解问题的覆盖范围。

在这里插入图片描述

(2)编程推理:与数学推理类似,RLVR在编程任务中也表现出小k值时的优势,但随着k值的增加,基础模型的表现更好。

在这里插入图片描述

(3)视觉推理:在视觉推理任务中,RLVR的效果与数学和编程任务一致,基础模型在可解问题上的覆盖范围更广。

(4)准确性分布分析:RLVR训练后,模型的高准确性频率增加,低准确性频率减少,但出现了更多无法解决的问题。
在这里插入图片描述

(5)蒸馏对比:蒸馏模型在pass@k曲线上显著高于基础模型,表明蒸馏能够引入新的推理模式,扩展模型的推理能力。
在这里插入图片描述

Reference

[1] Does RLVR enable LLMs to self-improve
[2] SFT练得挺好,一上RL直接崩?

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐