强化学习训练后，大模型推理能力边界如何变化？程序员必读

本研究系统评估了带可验证奖励的强化学习（RLVR）对大语言模型推理能力的影响。通过pass@k指标分析发现，尽管RLVR能提升模型在低k值下的采样效率，但随着k值增大，基础模型的性能反超RLVR模型，且RLVR生成的推理路径已存在于基础模型中。研究表明当前RLVR方法未能让模型获得超越基础模型的新推理能力，在充分挖掘基础模型潜力方面远未达到最优水平，亟需改进强化学习范式以释放其潜力。

我算是程序猿

236人浏览 · 2025-09-16 13:39:55

我算是程序猿 · 2025-09-16 13:39:55 发布

简介

今天来看一篇文章来探究RL是否能让LLM获取超越基础模型的推理能力：《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》

带可验证奖励的强化学习（RLVR）

近年来，带可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）在提升大语言模型（Large Language Models, LLMs）的推理性能方面展现出显著成效，尤其在数学和编程任务中表现突出。人们普遍认为，与传统强化学习（RL）帮助智能体探索并学习新策略的机制类似，RLVR 能让大语言模型实现持续的自我改进，进而获得超越其基础模型能力范围的全新推理能力。

在本研究中，我们以大 k 值下的 pass@k 指标为评估标准，通过在不同模型系列、强化学习算法，以及数学 / 编程 / 视觉推理基准测试集上，系统性地探究经 RLVR 训练的大语言模型的推理能力边界，对 RLVR 的研究现状进行了批判性分析。研究发现，尽管 RLVR 能提高模型向正确路径采样的效率，但当前的训练方法并未催生出本质上全新的推理模式。具体而言，在 k 值较小时（如 k=1），经 RLVR 训练的模型性能优于其基础模型；但当 k 值增大时，基础模型的 pass@k 得分反而更高。此外，我们还观察到，随着 RLVR 训练的推进，大语言模型的推理能力边界往往会收窄。

进一步的覆盖率与困惑度分析表明，RLVR 模型生成的推理路径已包含在基础模型的采样分布中，这意味着 RLVR 模型的推理能力源于基础模型，且受限于基础模型的能力范围。从这一角度出发，若将基础模型视为能力上限，我们的定量分析显示：六种主流 RLVR 算法的性能表现相近，且在充分挖掘基础模型潜力方面远未达到最优水平。与之形成对比的是，我们发现知识蒸馏（distillation）能够从教师模型中引入新的推理模式，真正拓展模型的推理能力。

综合以上发现，当前的 RLVR 方法尚未充分发挥强化学习的潜力，未能让大语言模型获得真正新颖的推理能力。这凸显出我们亟需改进强化学习范式 —— 例如通过持续扩展规模、实现智能体与环境的多轮交互等方式 —— 以释放强化学习在提升大语言模型推理能力方面的潜力。

项目主页：https://limit-of-RLVR.github.io

引言

以推理为核心的大语言模型（如 OpenAI-o1（Jaech 等人，2024）、DeepSeek-R1（Guo 等人，2025）和 Kimi-1.5（Team 等人，2025））的发展，极大地拓展了大语言模型的能力边界，尤其在解决涉及数学和编程的复杂逻辑任务方面成效显著。

传统的指令微调方法依赖人工整理的标注数据（Achiam 等人，2023；Grattafiori 等人，2024），而推动大语言模型能力实现这一飞跃的关键驱动力，是大规模的带可验证奖励的强化学习（RLVR）（Lambert 等人，2024；Guo 等人，2025）。

图 1：（左）当前 RLVR 对大语言模型（LLM）推理能力的影响。针对某一问题，通过对基础模型和经 RLVR 训练的模型进行重复采样，生成搜索树。灰色表示模型大概率不会采样的路径，黑色表示模型大概率会采样的路径，绿色表示正确路径（可获得正奖励）。我们的核心发现是：RLVR 模型中的所有推理路径均已存在于基础模型中。对于 “问题 A” 这类特定问题，RLVR 训练会使模型的采样分布向有奖励的路径倾斜，从而提升采样效率；但这一优势的代价是推理能力范围的缩小 —— 对于 “问题 B” 这类其他问题，基础模型包含正确路径，而 RLVR 模型却不包含。（右）随着 RLVR 训练的推进，模型的平均性能（即 pass@1 指标）有所提升，但可解决问题的覆盖率（即 pass@256 指标）却在下降，这表明大语言模型的推理边界在缩小。

RLVR 以预训练基础模型或经 “思维链（Chain of Thought, CoT）” 数据微调后的模型为起点，基于简单且可自动计算的奖励，通过强化学习对模型进行优化。这些奖励的判定依据是：在数学任务中，模型输出是否与真实解匹配；在代码任务中，模型输出是否能通过单元测试。这种奖励机制无需人工标注，因此具备良好的可扩展性。该框架因其简洁性和实际有效性，已获得广泛关注。

在游戏（如雅达利游戏、围棋）等传统强化学习场景中，智能体通常能通过自我改进自主探索新策略，甚至超越人类水平（Mnih 等人，2015；Silver 等人，2017）。受此启发，人们普遍认为，RLVR 同样能让大语言模型自主形成全新的推理模式（包括枚举、自我反思、迭代优化等），进而超越其基础模型的能力（Guo 等人，2025）。因此，RLVR 被视为实现大语言模型持续自我进化的潜在路径，有望帮助我们更接近更强大的智能体（Guo 等人，2025）。

然而，尽管 RLVR 在实证中取得了成功，其背后的实际效用仍未得到充分研究。这引发了一个核心问题：当前的 RLVR 是否真能让大语言模型获得全新的推理能力（如同传统强化学习通过探索发现新策略那样），还是仅仅在利用基础模型中已有的推理模式？

要严谨回答这一问题，我们首先需评估基础模型与经 RLVR 训练的模型各自的推理能力边界。传统评估指标依赖贪心解码或核采样（nucleus sampling）的平均得分（Holtzman 等人，2020），这类指标仅能反映模型的 “平均表现”。但它们存在低估模型真实潜力的风险 —— 例如，某些模型在有限尝试中可能无法解决难题，但通过更多次采样却能成功解决。

为克服这一局限，我们采用 pass@k 指标（Brown 等人，2024）：若从模型采样的 k 个输出中存在至少一个正确答案，则认为该问题已被解决。通过允许模型进行多次尝试，pass@k 指标能揭示模型是否具备解决某一问题的潜力。在数据集上的平均 pass@k 得分，可反映模型在 k 次尝试内有望解决的问题比例，从而更可靠地展现其推理边界。这一指标为 “RLVR 训练是否能让模型获得突破性能力（即解决基础模型无法解决的问题）” 提供了严谨的检验标准。

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

我们以 pass@k 为评估指标，在多个基准测试集上开展了大量实验，涵盖不同系列的大语言模型、不同模型规模及不同 RLVR 算法，对比基础模型与其经 RLVR 训练后的版本。研究发现了若干出人意料的结论，这些结论不仅能更全面地评估当前 RLVR 训练的有效性，还揭示了现有 RLVR 方法与 “发现真正全新推理策略” 这一强化学习理想目标之间的差距：

当前 RLVR 模型的推理覆盖范围窄于基础模型

：在 pass@k 曲线中，尽管 RLVR 模型在 k 值较小时表现优于基础模型，但令人意外的是，随着 k 值增大，在所有基准测试集和所有系列的大语言模型中，基础模型的性能均持续超过 RLVR 模型。这表明当前的 RLVR 训练并未扩大、甚至缩小了模型可解决问题的推理范围。对模型响应的人工检查显示，对于大多数问题，基础模型至少能生成一条正确的思维链（CoT）—— 这意味着，对于此前被认为只有 RLVR 模型能解决的问题，基础模型其实早已能生成正确的推理路径。
当前 RLVR 模型生成的推理路径已存在于其基础模型中

：为进一步探究上述现象，我们对准确率分布进行了分析。结果显示，RLVR 虽能通过 “在基础模型已能解决的问题上更高效地采样” 提升平均性能（即 pass@1 指标），但无法让模型解决新的问题。进一步的困惑度分析表明，RLVR 模型生成的推理路径，已包含在基础模型的输出分布中。这些发现表明，RLVR 并未赋予模型全新的推理能力，当前 RLVR 模型的推理能力仍受限于其基础模型。RLVR 的这一影响可参考图 1（左）。
当前 RLVR 算法性能相近且远未达最优

：我们将基础模型视为能力上限，定义了 “采样效率差距（∆SE）”（见图 8（上））—— 即 RL 模型的 pass@1 得分与基础模型的 pass@k 得分（以 k=256 作为上限性能的代理指标）之间的差值。该指标可量化 RL 算法与最优边界的接近程度。结果显示，在所有算法（如 PPO、GRPO、Reinforce++）中，∆SE 的差异极小，但数值始终较大。这表明当前的 RLVR 方法虽能提升采样效率，但仍远未达到最优水平。
RLVR 与知识蒸馏存在本质差异

：RLVR 通过更高效地采样高奖励输出来提升推理得分，但无法激发模型的新推理能力，且始终受限于基础模型的能力范围。与之相反，知识蒸馏能将更强的教师模型的新推理模式迁移到学生模型中，因此，经蒸馏的模型往往能展现出超越基础模型的推理范围。

综上，我们的研究结果表明：当前的 RLVR 方法虽能提升采样效率，却无法让模型获得超越基础模型能力范围的全新推理能力。这一发现凸显了现有 RLVR 方法与强化学习目标之间的差距，也强调了我们亟需改进强化学习范式 —— 例如通过持续扩展规模、优化探索机制、实现智能体多轮交互等方式 —— 以释放其潜力。

预备知识
=======

本节首先概述 RLVR 的基本原理，随后介绍用于评估推理边界的 pass@k 指标，并解释为何选择该指标而非 “最优 N 选 1（best-of-N）” 等其他指标。

2.1 带可验证奖励的强化学习（RLVR）

可验证奖励（Verifiable Rewards）

设 πₜ为参数为 θ 的大语言模型，该模型以自然语言提示 x 为条件，生成 token 序列 y=(y₁, …, y_T)。确定性验证器 V 会返回一个二元奖励：r = V (x, y) ∈ {0, 1}，其中 r=1 当且仅当模型的最终答案完全正确。此外，还可添加 “格式奖励”，以鼓励模型将推理过程与最终答案明确区分开。强化学习的目标是学习一个策略，以最大化期望奖励：J (θ) = 𝔼ₓ∼D [𝔼ᵧ∼πₜ(・|x)[r]]，其中 D 为提示的分布。

RLVR 算法

近端策略优化（PPO）（Schulman 等人，2017）提出使用以下裁剪代理函数来最大化目标函数：
L_CLIP = 𝔼[min(rₜ(θ)Aₜ, clip(rₜ(θ), 1−ε, 1+ε)Aₜ)] （1）
其中，rₜ(θ) = πₜ(yₜ|x, y<ₜ)/πₜₒₗ𝚍(yₜ|x, y<ₜ)，Aₜ为价值网络 V_φ 所估计的优势函数。此外，还可选择性地加入 KL 散度项，以限制模型与原始策略的偏差过大。

图 2：基础模型与其经 RLVR 训练的模型在多个数学基准测试集上的 pass@k 曲线。当 k 值较小时，经 RL 训练的模型性能优于其基础模型版本；但当 k 值增大到几十或几百时，基础模型会持续追赶并超越经 RL 训练的模型。关于 GSM8K 和 AMC23 数据集的更多结果可参见图 9。

（注：“policy” 为前文 “原始策略（original policy）” 的延续表述，此处完整语义为 “（KL 散度项可）限制模型与原始策略的偏差过大”，相关算法细节详见附录 D.4。）

策略梯度（Policy Gradient）

近端策略优化（PPO）及其变体均属于强化学习中的策略梯度类方法（Williams, 1992；Sutton 等人，1998）。这类方法仅通过 “在策略样本（on-policy samples）” 学习 —— 即样本均由当前大语言模型生成。在可验证奖励的场景下，训练目标通常是 “最大化正确答案样本的对数似然”，同时 “最小化错误答案样本的似然”。

零强化学习训练（Zero RL Training）

零强化学习训练指 “无需任何监督微调（SFT），直接对基础模型应用强化学习”（Guo 等人，2025）。为清晰探究 RLVR 的效果，我们在所有数学任务中均采用该零强化学习设置，以预训练模型作为初始模型。但在代码生成和视觉推理任务中，开源研究通常以 “经指令微调的模型” 作为起点 —— 主要原因是 “纯零强化学习设置” 存在训练不稳定、效果有限的问题。遵循这一惯例，我们将 “经指令微调的模型” 与其 “经 RLVR 训练的版本” 进行对比，以单独聚焦 RLVR 的作用。

2.2 大语言模型推理能力边界的评估指标

pass@k 指标（Pass@k Metrics）

准确衡量基础模型与 RL 模型的推理能力边界具有挑战性 —— 贪心解码、核采样平均值（Holtzman 等人，2020）等方法仅能反映模型的 “平均表现”。为精准衡量推理能力边界，我们将代码生成领域常用的 pass@k 指标（Chen 等人，2021）扩展到所有 “带可验证奖励的任务” 中。

针对某一问题，从模型中采样 k 个输出：若 k 个样本中至少有 1 个通过验证，则该问题的 pass@k 值为 1；否则为 0。在数据集上的平均 pass@k 值，可反映模型在 k 次尝试内有望解决的问题比例，为大语言模型的推理能力覆盖范围提供严谨评估。我们采用 “无偏、低方差估计器” 计算 pass@k，具体细节详见附录 A.2。

与 “最优 N 选 1（Best-of-N）” 和 “多数投票（Majority Voting）” 的对比

“最优 N 选 1”（Cobbe 等人，2021）和 “多数投票” 是选择正确答案的实用方法，但它们可能会忽略模型的完整推理潜力。与之不同，我们使用 pass@k 的目的并非评估 “实际实用性”，而是探究 “推理能力边界”：若模型在 k 次采样中能生成任意一个正确解，就认为该问题在其潜力范围内。因此，若强化学习真能提升推理能力，经 RL 训练的模型应能在 “更多此类问题” 上取得成功。而 “最优 N 选 1” 或 “多数投票” 若未通过验证器筛选或投票选中正确答案，就可能遗漏这些成功案例。

随机猜测问题（Random Guessing Issue）

在代码任务中，验证器为编译器和预设单元测试用例，此时 pass@k 值可准确反映模型是否能解决问题。但在数学任务中，随着 k 值增大，“猜测” 问题会愈发明显 —— 模型可能生成错误的思维链（CoT），却仍能偶然得到正确答案。

为解决这一问题，我们会手动检查部分模型输出的思维链正确性，具体细节详见 3.1 节。通过结合 “数学任务手动检查结果” 与 “代码任务结果”，我们能严谨评估大语言模型的推理能力范围。

另一个需要注意的点是：若 k 值极大（达到天文数字），即便对 token 词典进行均匀采样，也可能偶然得到正确推理路径 —— 但这在当前的时间与计算资源预算下完全不可行。关键发现是：基础模型在 “实际可行的 k 值（128 或 1024）” 下已能生成正确输出，而这类 k 值完全在实用资源范围内。

表 1：评估 RLVR 对大语言模型推理边界影响的实验设置

RLVR 对推理能力边界的影响
==================

在确定推理边界的评估指标后，我们通过大量实验对基础模型与 RLVR 模型进行了全面评估。分析按任务类型划分，涵盖三个典型领域：数学、代码生成与视觉推理。整体实验设置汇总于表 1。

评估流程（Evaluation Protocol）

在对基础模型与 RLVR 模型进行采样时，我们将温度（temperature）设为 0.6，top-p 值设为 0.95，最大生成 token 数为 16384。不同温度设置的影响详见图 16。

评估基础模型时，常见做法是在提示词中加入 “少样本示例（few-shot examples）” 以引导输出（Grattafiori 等人，2024；Yang 等人，2024；Liu 等人，2024）。但为确保对比公平无偏，我们特意不为基础模型使用少样本提示词，以排除 “上下文示例可能对推理产生的干扰影响”。

评估基础模型与 RLVR 模型时，我们均使用 “与 RLVR 训练一致的零样本提示词” 或 “基准测试集提供的默认提示词”，确保两种模型的评估设置一致。有趣的是，尽管基础模型在 “无少样本引导” 时常生成格式混乱或无意义的响应，但我们观察到：只要采样次数足够，基础模型仍能生成格式正确的输出，并成功解决复杂问题。训练与评估所用的提示词模板详见附录 E。

3.1 RLVR 在数学推理中的作用

模型与基准测试集（Models and Benchmarks）

在数学问题中，模型需同时生成推理过程（即思维链 CoT）与最终答案。为确保结论的稳健性，我们采用多个系列的大语言模型开展实验，主要为 Qwen2.5（7B/14B/32B 基础版本）（Yang 等人，2024），此外还包括 LLaMA-3.1-8B（Grattafiori 等人，2024）。

我们采用 SimpleRLZoo（Zeng 等人，2025）发布的 RLVR 模型 —— 这类模型以零强化学习方式，在 GSM8K 和 MATH 训练集上通过 GRPO 算法训练，仅以 “答案正确性” 作为奖励，不包含任何 “格式奖励”。我们在不同难度的基准测试集上对比基础模型与零强化学习模型的 pass@k 曲线，包括 GSM8K（Cobbe 等人，2021）、MATH500（Hendrycks 等人，2021）、Minerva（Lewkowycz 等人，2022）、Olympiad（He 等人，2024）、AIME24 与 AMC23。

此外，我们还纳入了 RLVR 模型 Oat-Zero-7B 和 DAPO-32B（Liu 等人，2025b；Yu 等人，2025）—— 这两种模型在高难度的 AIME24 基准测试集上表现突出。

RLVR 的影响：正确样本概率提升，可解决问题覆盖范围缩小

如图 2 所示，我们在所有实验中均观察到 “k 值大小与模型性能” 的反向趋势：当 k 值较小时（如 k=1，相当于 “平均准确率”），经 RL 训练的模型性能优于基础模型 —— 这与 “强化学习提升性能” 的普遍认知一致，表明 RLVR 能显著提高模型采样到正确响应的概率；但随着 k 值增大，基础模型的性能曲线斜率更陡，在所有基准测试集上均会持续追赶并最终超越经 RL 训练的模型，这意味着基础模型可解决的问题覆盖范围更广。

例如，在 Minerva 基准测试集上，32B 规模的基础模型在 k=128 时，性能比经 RL 训练的同规模模型高出约 9%，这表明基础模型能解决验证集中约 9% 更多的问题。

我们进一步分析了经 Oat-Zero 和 DAPO 训练的 RL 模型。如图 10 所示，尽管 RL 模型初期表现强劲（性能比基础模型高近 30%），但最终仍会被基础模型超越。基于这些结果，我们得出结论：RLVR 能提高 “低 k 值下采样正确响应的概率”，但会缩小模型的整体推理覆盖范围。这一现象的根本原因将在 4.1 节中进一步分析。

思维链案例分析（CoT Case Analysis）

图 19 和图 20 展示了从基础模型中采样到的正确思维链 —— 这些样本均从 “AIME24 中最难问题的 2048 次采样” 中手动筛选得出。基础模型生成的响应往往是 “长思维链”，且表现出 “自我反思行为”，这凸显了基础模型本身就具备强大的推理能力。

思维链的有效性（Validity of Chain-of-Thought）

数学问题的常见评估方式仅关注 “最终答案正确性”，存在 “蒙对答案” 的风险。若要通过 pass@k 准确反映推理能力边界，需评估 “已解决的问题中，有多少是源于‘真正正确的思维链’，而非‘幸运猜测’”。

参考（Brown 等人，2024）的方法，我们手动检查了 “GSM8K 数据集中最难解决问题” 的所有正确思维链 —— 这些问题的平均准确率在 0% 至 5% 之间。结果显示：基础模型解决了 25 个此类问题，其中 24 个包含至少一条正确思维链；经 RL 训练的模型同样解决了 25 个此类问题，其中 23 个包含至少一条正确思维链。

我们还手动检查了 “AIME24 基准测试集中平均准确率低于 5% 的问题” 的思维链，具体细节详见附录 D.2：基础模型解决了 7 个此类问题，在可判断的 6 个问题中，有 5 个包含至少一条正确思维链（排除 1 个因 “跳过推理步骤” 导致正确性模糊的案例）；经 RL 训练的模型解决了 6 个此类问题，其中 4 个包含至少一条正确思维链。这些结果表明，基础模型本身就能采样到解决问题的有效推理路径。

下面总结下要点：

这篇文档核心是探究一个关键问题：带可验证奖励的强化学习（RLVR），到底能不能让大语言模型（LLMs）学会比基础模型更厉害的推理能力？ 结论挺出人意料的 —— 目前的 RLVR 还做不到，它只是让模型 “更会选答案”，没让模型 “学会新推理”。

先搞懂背景：什么是 RLVR？

之前大家觉得，RLVR 是让大模型变强的好办法 —— 比如让模型解数学题、写代码，对了给奖励，错了不给，像训练机器人玩游戏那样，让模型自己越练越厉害，甚至能学会基础模型不会的推理方法。但这篇研究就是要较真：这事儿真的成立吗？

研究怎么验证的？用了个关键指标 “pass@k”

平时评估模型，一般看 “一次就能做对”（pass@1），但这篇研究用了 “pass@k”—— 简单说就是 “让模型试 k 次，只要有一次做对就算成功”。这个指标的好处是能看出模型 “到底有没有潜力做对”，而不只是 “平均水平怎么样”。比如有的模型一次正确率不高，但多试几次能做对，说明它其实有解决能力；反之，要是试很多次都做不对，说明它是真不会。

最意外的发现：RLVR 模型 “小 k 厉害，大 k 拉胯”

研究用了好几种模型（比如 Qwen2.5、LLaMA-3.1）、好几个任务（数学题、写代码、看图推理），发现一个统一规律：

当 k 很小的时候（比如 k=1，就试 1 次），经过 RLVR 训练的模型确实比基础模型厉害 —— 这和之前大家看到的一致，RLVR 让模型 “更会选对的答案”；
但当 k 变大的时候（比如 k=128、256，多试几十上百次），反过来了！基础模型的正确率超过了 RLVR 模型。

这说明什么？RLVR 没让模型学会新推理，只是让模型更会从自己已有的能力里 “挑对的用” —— 比如基础模型其实能生成正确的推理路径，但平时藏在众多错误答案里；RLVR 只是把这些正确路径的优先级提高了，让模型一次就选到，但代价是 “把其他可能的推理路径给丢了”，导致多试几次时，反而不如基础模型能覆盖更多问题。

更深入的证明：RLVR 的推理路径，基础模型早就有

研究还做了两个关键分析，进一步实锤：

困惑度分析

：困惑度越低，说明模型越容易生成某个答案。结果发现，RLVR 模型生成的正确推理路径，在基础模型里的困惑度也很低 —— 也就是说，这些推理路径基础模型本来就能生成，RLVR 只是 “偏爱” 它们而已；
能解决的问题范围

：对比基础模型和 RLVR 模型能解决的问题，发现 RLVR 能解决的问题，基础模型基本都能解决（只是基础模型可能要多试几次）；反而有些基础模型能解决的问题，RLVR 模型却解决不了 ——RLVR 缩小了模型的 “推理范围”。

对比蒸馏：真正能让模型 “学新东西” 的是它

研究还拿 RLVR 和 “蒸馏”（把厉害老师模型的能力传给普通学生模型）做了对比，发现两者完全不一样：

蒸馏后的模型，不管 k 是大是小，正确率都比基础模型高 —— 说明蒸馏真的让模型学会了老师的新推理方法，扩展了推理能力；
而 RLVR 模型始终跳不出基础模型的 “能力圈”，只是优化了 “选答案的效率”。

为什么 RLVR 做不到？可能有两个原因

大模型的 “动作空间” 太大了

：机器人玩游戏，动作就那么几种（比如上下左右），但语言模型生成文本的可能太多了，RLVR 很难探索到 “基础模型没见过的新推理路径”；
基础模型的 “先验知识” 是把双刃剑

：RLVR 是在基础模型上训练的，基础模型会引导它生成 “自己熟悉的内容”—— 要是偏离基础模型的知识，生成的内容大概率是错的（拿不到奖励），所以模型不敢 “尝试新推理”，只能在基础模型的框架里优化。

总结一下

目前的 RLVR，更像给模型装了个 “精准筛选器”—— 让它在已有能力里更快找到对的答案，但没给模型装 “新的推理发动机”。要是想让模型真的学会更厉害的推理，还得搞新的强化学习方法，比如让模型能和环境多轮互动、能更自由地探索新推理路径。

D. 详细实验结果

D.1 数学与代码生成任务的更多结果

图 9：SimpleRLZoo 在 GSM8K 与 AMC23 基准测试集上的更多结果

（图表结构说明：该图包含 6 个子图，分别对应 4 种模型（Qwen-2.5-7B、Qwen-2.5-14B、Qwen-2.5-32B、LLaMA-3.1-8B）在 2 个数学基准测试集（GSM8K、AMC23）上的 pass@k 曲线。横轴为采样次数 k（取值为 1、4、16、64、256、1024 或 1、2、4、8、16、32、64、128），纵轴为覆盖率（Coverage，即 pass@k 值，范围 0-1 或 0.8-1）；曲线 “Base” 代表基础模型，“RL” 代表经 RLVR 训练的模型。）

图 10：Oat-Zero-7B 与 DAPO-32B 在 AIME24 基准测试集上的评估结果（与各自基础模型对比）

（图表结构说明：该图包含 2 个子图，左侧子图展示 Qwen-2.5-Math-7B（基础模型）与 Qwen-2.5-Math-7B-Oat-Zero（经 Oat-Zero 训练的 RL 模型）在 AIME24 上的 pass@k 曲线；右侧子图展示 Qwen-2.5-Base-32B（基础模型）与 DAPO-32B（经 DAPO 训练的 RL 模型）在 AIME24 上的 pass@k 曲线。横轴为采样次数 k（取值为 1、4、16、64、256、1024），纵轴为覆盖率（Coverage，即 pass@k 值，范围 0-1 或 0-1.0）。）

图 11：Coder-R1 在 LiveCodeBench 基准测试集上的结果

（图表结构说明：该图包含 2 个子图，均展示 Qwen-2.5-7B-Instruct-1M（基础模型）与 Coder-R1-Zero-Qwen-2.5-1M（经 Coder-R1 训练的 RL 模型）在 LiveCodeBench 上的 pass@k 曲线；左侧子图对应 2024 年 8 月 - 2025 年 1 月的 LiveCodeBench 数据集，右侧子图对应 2023 年 5 月 - 2025 年 1 月的 LiveCodeBench 数据集。横轴为采样次数 k（取值为 1、2、4、8、16、32、64、128），纵轴为覆盖率（Coverage，即 pass@k 值，范围 0.1-0.3 或 0.1-0.5）。）

D.2 AIME24 基准测试集中思维链（Chain-of-Thought）的有效性验证

我们手动检查了高难度 AIME24 基准测试集中所有（模型生成的）思维链（CoT）。首先，我们引入了一套过滤机制，用于排除 “易被猜测答案” 的问题。具体而言，我们向 Qwen2.5-7B 基础模型（Qwen2.5-7B-Base）输入提示，要求其不使用思维链推理、直接回答问题，并对答案进行多次采样。若某一问题被正确回答的概率较低但非零（例如，低于 5%），我们则认为该问题的答案可通过猜测获得，并将其从评估集中移除；若某一问题能以较高概率被直接正确回答，我们则保留该问题 —— 这类问题通常难度较低，且可通过有效的思维链推理解决。

（注：1. “Chain-of-Thought” 为 AI 领域固定术语，译为 “思维链”，简称 “CoT”，指模型通过逐步推理生成答案的过程；2. “AIME24” 为数学竞赛类基准测试集名称，全称为 “American Invitational Mathematics Examination 2024”，此处保留原名以符合学术文本规范；3. “Qwen2.5-7B-Base” 为模型名称，保留原名并补充 “基础模型” 字样，明确其 “未经过 RLVR 训练” 的属性；4. “guessable” 译为 “可通过猜测获得（答案）的”，精准体现 “无需推理、仅凭概率猜测即可答对” 的核心含义，区别于 “可推理解决的（solvable via reasoning）”。）

经筛选的 AIME24 基准测试集上基础模型与强化学习（RL）模型的 pass@k 曲线

经筛选的 AIME24 基准测试集上，基础模型与强化学习（RL）模型的 pass@k 曲线可参见图 12，其趋势与此前结果一致。尽管该筛选方法属于启发式方法，但事实证明它是有效的：将其应用于包含 30 道题的 AIME24 基准测试集后，得到了一个包含 18 道题的子集。随后，我们向模型输入提示，要求其使用思维链（CoT）推理来回答这些筛选后的问题。接着，我们手动检查了 “最难问题（平均准确率低于 5%）” 的所有思维链 —— 这些思维链均导向了正确答案。结果显示：基础模型答对了 7 道此类难题，在可明确判断的 6 道题中（排除 1 道因推理步骤缺失导致正确性存疑的题目），有 5 道题的思维链中至少包含 1 条正确推理路径；与之类似，经强化学习训练的模型答对了 6 道此类难题，其中 4 道题的思维链中至少包含 1 条正确推理路径。这些结果表明，即便是在高难度的 AIME24 基准测试集的最难题目中，基础模型也能采样到解决问题的有效推理路径。

D.3 准确率分布可视化

图 13：使用 SimpleRLZoo 模型进行 RLVR 训练前后的准确率直方图

D.4 不同的 RLVR 算法

我们在图 8 中报告了关于不同 RLVR 算法的额外观察结果，具体如下：

DAPO 算法

：在所有三个数据集上，DAPO 的 pass@1 得分均略高；但相比其他算法，其动态采样策略在训练期间每批次需要约 3~6 倍更多的样本，且在 k=256 时性能显著下降。
RLOO 与 Reinforce++ 算法

：在整个 k 值范围（1 至 256）内，这两种算法的性能始终表现良好，同时保持了高效的训练成本，在效果与效率之间实现了良好平衡。
ReMax 算法

：该算法在 pass@1 和 pass@256 上的性能均较低。我们推测，这是因为它将 “贪心响应奖励” 用作优势基线（advantage baseline）—— 而在 RLVR 场景中，该奖励为二元值（0 或 1）且波动性极大，这可能导致训练过程中梯度更新不稳定。

（注：1. 算法名称（DAPO、RLOO、Reinforce++、ReMax）均保留原名，为强化学习领域专用算法标识；2. “pass@1”“pass@256” 为评估指标，指 “采样 1 次 / 256 次时至少有 1 次正确的概率”，保留原名并补充中文释义；3. “dynamic sampling strategy” 译为 “动态采样策略”，“advantage baseline” 译为 “优势基线”，均为强化学习领域标准术语；4. “binary (0 or 1)” 译为 “二元值（0 或 1）”，明确奖励仅存在 “正确（1）” 与 “错误（0）” 两种状态；5. “gradient updates” 译为 “梯度更新”，为深度学习训练核心过程的标准表述。）

图 14：图 8 的 y 轴展开版本

表 2：图 8 中不同强化学习（RL）算法在 pass@1 和 pass@256 指标上各数据点的详细数值

表 3：图 1（右）中不同强化学习（RL）训练步数下，pass@1 和 pass@256 指标的详细数值

D.5 KL 散度与滚动步数的影响

（说明：1. “KL” 全称为 “Kullback-Leibler Divergence”，是机器学习中衡量两个概率分布差异的核心指标，标准译为 “KL 散度”，保留缩写 “KL” 符合学术文本习惯；2. “Rollout Number” 为强化学习领域专用术语，指 “智能体在一次策略评估中生成的轨迹样本数量”，译为 “滚动步数”，准确体现 “多步采样生成轨迹” 的核心含义）

图 15：KL 损失与滚动步数 n 的消融实验

当将 n（滚动步数）从 8 增加到 32 时，我们保持提示词批次大小不变，这导致每个训练步骤的计算量增加。由于资源限制，在此设置下我们仅训练了 220 步 —— 模型尚未收敛，因此 pass@1 指标得分较低。尽管如此，n=32 的模型仍实现了更高的 pass@128 得分，这凸显了 “更大的滚动步数” 在 “提升高 k 值下 pass@k 指标” 方面的积极作用。（说明：1. “Ablation Study” 为机器学习领域固定术语，译为 “消融实验”，指通过移除或调整模型 / 算法的某一组件，验证该组件对性能的影响；2. “KL Loss” 译为 “KL 损失”，“KL” 为 “Kullback-Leibler Divergence”（KL 散度）的缩写，“KL 损失” 用于衡量模型训练前后策略分布的差异，避免策略偏移过大；3. “Rollout Number” 译为 “滚动步数”，指强化学习中模型单次生成的轨迹样本数量；4. “prompt batch size” 译为 “提示词批次大小”，“training step” 译为 “训练步骤”，均为模型训练的基础术语；5. “converged” 译为 “收敛”，指模型训练过程中损失稳定、性能不再显著变化的状态；6. “pass@1”“pass@128” 为评估指标，保留原名，分别指 “采样 1 次 / 128 次时至少 1 次正确的概率”。）

D.6 可解决问题覆盖范围分析

（说明：“Solvable Problem Coverage Analysis” 译为 “可解决问题覆盖范围分析”，“覆盖范围” 指模型能够成功解决的问题在整个数据集所占的比例，该分析用于验证模型推理能力的适用边界。）

表 4：AIME24 基准测试集中可解决问题的编号（编号从 0 开始）

可观察到近似的子集关系：强化学习（RL）模型能解决的大部分问题，基础模型也能解决。（说明：1. “Indices of solvable problems” 译为 “可解决问题的编号”，“indices” 此处指问题在数据集中的序号；2. “AIME24” 为数学竞赛类基准测试集（American Invitational Mathematics Examination 2024），保留原名以确保辨识度；3. “subset relationship” 译为 “子集关系”，指 RL 模型可解决的问题集合，大致是基础模型可解决问题集合的子集；4. “RL model” 译为 “强化学习（RL）模型”，“base model” 译为 “基础模型”，明确两类模型的定义差异 —— 前者经 RLVR 训练，后者为未训练的原始模型。）

D.7 温度（Temperature）与熵（Entropy）分析

（图表说明：该图包含 6 个子图，分别对应 2 个基准测试集（AIME24、MATH500）在 3 种温度设置（T=0.6、T=1.0、T=1.2）下的 pass@k 曲线。横轴为采样次数 k（取值为 1、4、16、64、256、1024 或 1、2、4、8、16、32、64、128），纵轴为覆盖率（Coverage，即 pass@k 值，范围 0-0.8 或 0.2-1）；曲线 “Base” 代表基础模型，“RL” 代表经 RLVR 训练的模型。）

图 16：温度对模型性能的影响

我们发现，当温度（Temperature）超过 1.0 时，基础模型的性能会下降 —— 因为此时模型倾向于生成更多随机且连贯性较差的词元（token）。与之相反，在不同温度设置下，强化学习（RL）模型的性能始终保持相对稳定。因此，我们在主要实验中采用 T=0.6 的温度设置，这一参数能让两种模型（基础模型与 RL 模型）均展现出最佳的推理性能。（说明：1. “Temperature” 为大语言模型采样核心参数，固定译为 “温度”，其值越高代表模型生成内容的随机性越强，值越低则输出越确定；2. “token” 为 NLP 领域基础术语，译为 “词元”，指模型处理文本时拆分的最小语义单位；3. “RL model” 结合上下文译为 “强化学习（RL）模型”，补充缩写全称便于理解，同时保留 “RL” 符合学术文本表述习惯；4. “T = 0.6” 中 “T” 为 “Temperature” 的缩写，保留原符号并补充中文释义，确保参数指代清晰。）

图 17：输出熵匹配条件下基础模型与 RLVR 模型的对比

我们在每个数据集上以温度 T=0.6 评估基础模型（Qwen2.5-7B），并在每个子图的标题中标注其输出熵 Ebase（基础模型输出熵）。为实现公平对比，我们逐步提高 RLVR 模型（SimpleRLZoo）的温度，直至其输出熵与 Ebase 大致匹配。例如，在 AMC23 数据集上，我们将温度设为 T=0.9，使 RL 模型的输出熵 ERL（强化学习模型输出熵）达到 0.47。此外，我们还纳入了 RLVR 模型在 T=0.6 时的结果作为额外基准 —— 该温度下模型的输出熵更低，例如在 AMC23 数据集上为 0.22，在 MATH500 数据集上为 0.33。

D.8 训练动态

（说明：1. “Training Dynamics” 译为 “训练动态”，指模型在训练过程中关键指标（如奖励、损失、性能）随训练步数变化的过程与趋势，是分析模型训练稳定性与收敛性的核心维度；

图 18：训练过程中训练奖励、响应长度与生成熵的变化曲线

D.9 思维链（CoT）案例分析

E. 提示词模板

我们提供了实验中用于训练和评估的提示词模板。SimpleRL 训练与评估所用的提示词如图 21 所示，Oat-Zero 训练与评估所用的提示词如图 22 所示。Code-R1 训练采用图 23 中的提示词；Code-R1 评估则遵循原始代码库，采用基准测试集提供的默认模板，包括 LiveCodeBench 提示词（图 24）、HumanEval + 提示词以及 MBPP + 提示词（图 25）。EasyR1 训练与评估所用的提示词如图 26 所示。对于经 VeRL 训练的强化学习（RL）模型，如第 4.3 节和第 4.4 节所述，其训练与评估提示词如图 27 所示。为确保对比公平，基础模型在评估阶段使用的提示词，与其对应的经强化学习训练的模型完全一致。（说明：1. “Prompt Templates” 译为 “提示词模板”，“Prompt” 为大语言模型交互中的核心输入文本，译为 “提示词” 符合中文 AI 领域表述习惯；2. “SimpleRL”“Oat-Zero”“Code-R1”“EasyR1”“VeRL” 均为模型训练框架或算法名称，保留原名以确保辨识度；3. “LiveCodeBench”“HumanEval+”“MBPP+” 为代码生成领域基准测试集名称，保留原名符合学术文本规范；4. “base models” 译为 “基础模型”，“RL-trained counterparts” 译为 “经强化学习训练的模型”，明确两类模型的定义差异，避免歧义；5. 保留 “Figure 21-27” 的图表编号格式，与原文引用逻辑一致。）

AI大模型学习路线

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

请添加图片描述
第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

企业级微信医院医疗设备管理系统管理系统源码|SpringBoot+微信小程序+MyBatis架构+MySQL数据库【完整版】

2048 AI社区

AI 修缺陷靠谱吗？3 个真实案例给答案

因此，在实际应用中，我们应理性看待 AI 在修复缺陷中的作用，将其作为一种强大的辅助工具，与人类专业技能相结合，充分发挥两者的优势，以实现最佳的修复效果。人类修复师在修复过程中，能够凭借对艺术的感悟和理解，在修复细节上做出微妙而精准的调整，赋予修复后的作品生命力。这一问题引发了广泛的探讨与争议。他们不仅要具备高超的绘画技巧，能够准确还原画作的色彩和笔触，还要深入研究画作的历史背景、艺术家的风格特点