ICML AI4Math 最佳论文+NeurIPS 2025 Oral 满分！清华LeapLab：RLVR的巨额投入可能白砸了！

NeurIPS唯一满分论文（四审稿人全给6分）由清华大学LeapLab团队（黄高老师领衔）完成，其抛出的颠覆性结论引发行业震动。真正决定大模型推理上限的是基座模型本身而非强化学习，蒸馏比RLVR（可验证奖励的强化学习）更有望实现模型自我进化——这一观点给作为OpenAI-o1、DeepSeek-R1等主流模型核心驱动力、被视为模型自我进化终极路径的RLVR泼了冷水，也让当前围绕RLVR的巨额投入与

CV实验室

1227人浏览 · 2025-11-20 16:39:25

CV实验室 · 2025-11-20 16:39:25 发布

NeurIPS唯一满分论文（四审稿人全给6分）由清华大学LeapLab团队（黄高老师领衔）完成，其抛出的颠覆性结论引发行业震动。

LEAP Lab

真正决定大模型推理上限的是基座模型本身而非强化学习，蒸馏比RLVR（可验证奖励的强化学习）更有望实现模型自我进化——这一观点给作为OpenAI-o1、DeepSeek-R1等主流模型核心驱动力、被视为模型自我进化终极路径的RLVR泼了冷水，也让当前围绕RLVR的巨额投入与探索意义引发热议。

在这里插入图片描述

相关论文已开源，如有需要可自取！

原文资料这里！

1. 【导读】

论文基本信息

论文标题：Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

作者：Yang Yue、Zhiqi Chen、Rui Lu、Andrew Zhao、Zhaokai Wang、Yang Yue、Shiji Song、Gao Huang

作者机构：1. LeapLab, Tsinghua University（清华大学LeapLab）；2. Shanghai Jiao Tong University（上海交通大学）

论文来源：NeurIPS 2025 Oral，ICML 2025 Workshop AI4Math Best Paper Award

论文链接：https://openreview.net/pdf?id=4OsgYD7em5

项目链接：https://limit-of-rlvr.github.io

2. 【论文速读】

本文聚焦大模型推理能力进化路径，颠覆性指出真正决定推理上限的是基座模型本身，而非正炙手可热的RLVR（可验证奖励的强化学习）；研究通过系统实验对比，表明蒸馏方法更有望实现大模型自我进化，这一结论对当前围绕RLVR的巨额投入与探索提出关键质疑，为大模型推理能力进化研究提供了全新视角。

论文海报

3.【RLVR的“王座”，突然晃了？】

3.1 推理进化的“RLVR狂热”

大模型推理范式开启后，RLVR（可验证奖励的强化学习）因无需人工标注、可自动优化模型，成为OpenAI-o1、DeepSeek-R1等主流模型的核心驱动力，被视作实现模型自我进化、逼近更高推理能力的“终极路径”，行业围绕其展开巨额投入与探索。

3.2 清华上交的“逆声”挑战

来自清华大学LeapLab与上海交通大学的团队，针对“RLVR是否真能突破基座模型上限”这一核心问题，开展了系统性研究，试图从根本上验证RLVR在大模型推理进化中的实际价值。

3.3 结论的“地震级”冲击

研究最终得出颠覆性结论：真正决定推理上限的是基座模型本身而非强化学习，蒸馏方法更有望实现大模型自我进化，这一发现给RLVR的“王座”泼下冷水，也让行业对现有技术路径的意义产生深刻反思。

(Left) The effect of current RLVR on LLM’s reasoning ability. (Right) As RLVR training progresses, the average performance (i.e., pass@1) improves

4.【推理进化的“技术基石”，先盘明白！】

4.1 基座模型（Base Model）

设基座模型为 $M_b$ ，其通过大规模无监督预训练学习通用知识与基础推理能力，是大模型推理能力的“底层根基”，记其推理能力上限为 $C_b$ 。

4.2 强化学习（RL）与RLVR

强化学习框架中，模型 $M$ 通过与环境交互获取奖励信号 $r$ ，以策略 $\pi$ 优化目标函数 $J(\pi)=\mathbb{E}_{s\sim\mathcal{S}, a\sim\pi}[r(s,a)]$ 。
RLVR（可验证奖励的强化学习）是针对大模型推理的强化学习范式，通过自动构建可验证的奖励函数，试图让模型 $M_{rl}$ 在推理任务上超越基座模型，即期望 $C_{rl} > C_b$ 。

4.3 蒸馏（Distillation）

蒸馏是将复杂模型（如教师模型 $M_t$ ）的知识迁移到简单模型（如学生模型 $M_s$ ）的方法，目标是最小化蒸馏损失 $\mathcal{L}_{distill}(M_s, M_t)$ ，使 $M_s$ 在推理能力上逼近甚至超越 $M_t$ ，本文聚焦其在大模型自我进化中的作用，记蒸馏后模型推理能力为 $C_d$ 。

5.【RLVR“神化”破局：推理边界竟在收缩？】

5.1 实验核心设计：多维度覆盖+公平评估

模型与任务：涵盖Qwen2.5（7B/14B/32B）、LLaMA-3.1-8B等模型家族，聚焦数学推理（GSM8K、AIME24等）、代码生成（LiveCodeBench等）、视觉推理（MathVistaTestMini等）三大任务域。
评估标准：采用pass@k metric（k为采样次数），通过多轮采样规避“单次尝试低估模型潜力”问题，以平均pass@k反映模型可解问题比例，更精准衡量推理边界。
实验控制：base模型与RLVR模型使用相同零样本提示，排除上下文示例干扰；采样温度设为0.6、最大生成长度16384 tokens，确保对比公平性。

5.2 数学推理：小k领先，大k被base反超

短期优势：RLVR模型在k较小时（如k=1）表现优于base模型，因RL优化提升了正确路径的采样效率。
长期局限：随k增大（如k=128/256），base模型pass@k持续上升并反超RLVR模型，例如Minerva基准下32B模型，base比RLVR高约9%，表明RLVR未拓展可解问题范围，反而缩小推理覆盖。
CoT验证：手动检查AIME24等难题的推理链（CoT），发现base模型能生成有效推理路径，RLVR模型的正确路径均来自base模型已有分布。

5.3 代码生成：与数学推理趋势高度一致

验证可靠性：代码任务依赖编译器与单元测试验证，pass@k无“猜测正确”干扰，结果更可靠。
核心发现：RLVR模型（如CodeR1-Zero-Qwen2.5-7B、DeepCoder-14B）在LiveCodeBench等基准中，仍呈现“小k优于base、大k被base超越”的规律，进一步证明RLVR对推理边界的收缩效应。

5.4 视觉推理：跨模态任务结论不变

任务设定：以视觉语境下的数学推理为目标，基于Qwen2.5-VL-7B模型，在MathVistaTestMini、MathVision-TestMini基准评估。
实验结果：RLVR模型虽在低k时提升采样效率，但随k增大，base模型的推理覆盖优势仍会显现，说明RLVR的局限不局限于单模态，在跨模态推理中同样存在。

原文资料这里！

6.【深挖RLVR“短板”：推理路径藏在哪？】

6.1 推理路径：全来自基座模型，无新增

准确性分布分析：RLVR训练会提升模型高准确率（接近1.0）路径的出现频率，同时增加准确率为0的路径占比，说明其仅优化已有可解问题的采样效率，未解决新问题，反而让部分问题从“可解”变“不可解”。
可解问题覆盖对比：在AIME24、MATH500等基准中，RLVR模型能解决的问题几乎是基座模型可解问题的子集，极少存在RLVR可解而基座模型不可解的情况（如MATH500中仅1%），且这些极少数问题在基座模型大k采样（如k=1024）时也能解决。
困惑度验证：通过计算基座模型对RLVR模型生成路径的困惑度（ $PPL_{m}(Y | x)=exp \left(-\frac{1}{T} \sum_{t=1}^{T} log P\left(y_{t} | x, y_{1}, ..., y_{t-1}\right)\right)$ ），发现RLVR路径的困惑度分布与基座模型高频生成路径高度重合，且随RL训练推进，困惑度逐渐降低，证明RLVR仅“强化”基座模型已有路径，未拓展新路径。

6.2 蒸馏vs RLVR：前者才是“破界”关键

核心差异：RLVR受限于基座模型能力边界，而蒸馏可将更强教师模型的推理模式迁移到学生模型。
实验佐证：以DeepSeek-R1-Distill-Qwen-7B为例，其pass@k曲线在Minerva基准中持续高于基座模型及RLVR模型（如Qwen2.5-Math-7B-Oat-Zero），说明蒸馏能让模型突破基座模型上限，真正拓展推理边界。

6.3 不同RL算法：表现相近，均远非最优

采样效率差距定义：提出 $\Delta_{SE}$ （RL模型pass@1与基座模型pass@256的差值）衡量算法接近最优的程度， $\Delta_{SE}$ 越小越优。
实验结果：PPO、GRPO、Reinforce++等6种主流RL算法， $\Delta_{SE}$ 在不同基准中仅小幅波动（如GRPO为43.9，RLOO最优为42.6），且均保持在40以上，说明现有RL算法虽提升采样效率，但距离充分利用基座模型潜力的“最优状态”仍有巨大差距。

6.4 RL训练：步数越多，推理边界越窄

训练步数影响：随RL训练步数增加（如GRPO从150步到450步），模型pass@1（平均性能）持续提升（从26.1到42.5），但pass@256（可解问题覆盖）逐渐下降（如Omni-MATH-Test基准中从68.3降至63.9），证明训练会让模型“聚焦”已有正确路径，牺牲推理多样性。
其他参数影响：增大每提示采样数（n从8到32）或添加KL损失约束，虽能小幅改善RL模型高k性能，但仍无法超越基座模型；提升RL模型生成温度以匹配基座模型熵值，也仅能轻微提升pass@k，无法改变“推理边界窄于基座模型”的核心结论。

6.5 模型规模：大模型也逃不过RLVR局限

实验对象：选取Magistral-Medium（基于Mistral-Medium-3训练的纯RL模型，性能接近DeepSeek-R1）进行测试。
结果规律：该模型仍呈现“低k优于基座模型、高k被反超”的趋势，如AIME24中k=1时RL模型多解7题，但k增大后差距持续缩小，说明RLVR的局限不随模型规模扩大而消失。

7.【RLVR“祛魅”与进化新方向】

本文通过多模型、多任务、多算法的系统实验，颠覆了“RLVR是大模型推理自我进化终极路径”的认知：当前RLVR仅能提升基座模型已有正确路径的采样效率，无法生成新推理模式，且会缩小模型推理边界，其能力始终受限于基座模型；而蒸馏可通过迁移教师模型知识真正拓展推理边界。未来需探索更优RL范式，如持续规模扩展、多轮智能体-环境交互等，以突破现有局限，释放RL在大模型推理进化中的潜力。