建议收藏!揭秘OpenAI o1与DeepSeek-R1:强化学习如何提升大模型推理能力
本文综述了强化学习在提升大型语言模型推理能力方面的最新进展,重点介绍了OpenAI o1和DeepSeek-R1等模型如何通过可验证奖励强化学习实现规划、反思和自我纠正等高级推理能力。文章系统分析了RL for LRMs的基础组件(奖励设计、策略优化和采样策略)、面临的挑战以及未来发展方向,旨在推动RL向更通用、更强大的推理模型发展,最终实现ASI。
重点内容:
-
- 本综述深入探讨了强化学习(RL)在大型语言模型(LLMs)推理能力提升上的最新进展,尤其关注其如何将LLMs转型为能够处理数学和编程等复杂逻辑任务的大型推理模型(LRMs)。
-
- 以OpenAI o1和DeepSeek-R1为代表的模型,通过可验证奖励强化学习(RLVR)实现了规划、反思和自我纠正等高级推理能力,开辟了超越预训练的新扩展方向。
-
- 然而,将RL应用于LRMs以实现人工智能(ASI)仍面临计算资源、算法设计、训练数据和基础设施等多方面挑战,本综述旨在全面审视并探索其可扩展性策略。

本文综述了强化学习在大型语言模型 (LLMs) 推理能力发展中的最新进展,特别是自 DeepSeek-R1 发布以来,RL 已成为将 LLMs 转化为大型推理模型的基础方法。RL 在解决数学和编程等复杂逻辑任务方面取得了显著成功,例如OpenAI o1和 DeepSeek-R1 通过可验证奖励 (RLVR) 训练 LLMs,使其能够进行规划、反思和自我纠正等长形式推理。然而,RL 的进一步扩展面临计算资源、算法设计、训练数据和基础设施等方面的挑战。因此,本文旨在全面回顾RL for LRMs 领域,评估其发展轨迹,并探索提升RL可扩展性以实现ASI的策略。
文章首先介绍了 RL 在 LRMs 背景下的基本定义,将 LLM 组件映射到马尔可夫决策过程 (MDP) 框架:Prompt 对应初始状态,Policy 是语言模型,State 是 Prompt 和已生成序列的组合,Action 是在词汇表中选择的 token,Reward 通常是序列级别的 或分解为 token 级别 ,Return 是累积奖励。RL 的目标是最大化期望奖励
通常辅以 KL 散度正则化以稳定训练。随后,文章概述了自 OpenAI o1 以来,诸如 DeepSeek-R1、Claude、Gemini、Qwen、Skywork-OR1 等一系列前沿模型的进展,它们在推理、Agentic 任务和多模态能力方面推动了 RL 的应用。
接着,文章详细阐述了 RL for LRMs 的三大基础组件:奖励设计 (Reward Design)、策略优化 (Policy Optimization) 和采样策略 (Sampling Strategy)。

奖励设计 (Reward Design)
奖励设计方面,文章细致地分类讨论了多种方法:
可验证奖励 (Verifiable Rewards):
主要通过规则驱动的验证器(Rule-based Verifier)提供,如数学任务的答案正确性或代码任务的单元测试通过率。这些奖励是可靠且可扩展的训练信号,尤其适用于结果客观可验证的任务,体现了“验证器定律”(Verifier’s Law) 的原则。
生成式奖励 (Generative Rewards):
当任务缺乏客观真值时,GenRMs 利用 LRMs 的生成能力产生结构化批判、理由和偏好作为奖励信号。这包括:针对可验证任务的模型驱动验证器(Model-based Verifiers),如 TinyV;针对不可验证任务的推理奖励模型,通过生成 CoT 批判再判断;基于评分标准,利用自然语言描述捕获主观评估标准;以及协同演化系统),其中策略模型和奖励模型共同改进,例如自奖励或联合优化。
密集奖励 (Dense Rewards):
提供细粒度的信用分配,提高训练效率和稳定性。包括 token 级别奖励(如 DPO 中的对数似然比)、step 级别奖励(如 Math-Shepherd 的模型驱动 PRMs 或 VinePPO 的采样驱动估计)和 turn 级别奖励(如 ToolRL 的每次工具调用反馈或 ARPO 的全局奖励分解)。
无监督奖励 (Unsupervised Rewards):
旨在消除人类标注瓶颈。分为两类:模型特定奖励(Model-Specific Rewards),基于模型自身的输出一致性、内部置信度或自生成知识;以及模型无关奖励(Model-Agnostic Rewards),从外部自动化来源(如启发式规则或大规模未标注语料库)获取。
奖励塑形 (Rewards Shaping):
通过组合或转换奖励信号来引导学习。包括规则驱动的奖励塑形,即结合规则验证器和奖励模型的信号;以及结构驱动的奖励塑形,通过组级别的基线(如 GRPO 中的群体均值)来计算优势函数,或直接对齐 Pass@K 等评估指标。

策略优化 (Policy Optimization)
策略优化方面文章首先给出了策略梯度目标函数
并介绍了 PPO 算法作为常用的梯度估计方法,其核心是使用重要性采样权重 和优势函数 。
基于Critic的算法 (Critic-based Algorithms):
以 RLHF 为代表,引入一个 Critic 模型(通常是价值函数)来预测奖励,从而提供 token 级别的价值信号。PPO 中使用广义优势估计 (Generalized Advantage Estimator, GAE) 构建优势函数。这些方法需要 Critic 模型与 LLM 同时运行和优化,带来了显著的计算开销。
无Critic算法 (Critic-Free Algorithms):
仅使用序列级别奖励进行训练,无需独立的 Critic 模型,降低了计算需求并简化了训练。REINFORCE 及其变体(如 ReMax、RLOO)是早期方法。GRPO (Group Relative Policy Optimization) 是一种流行的无 Critic 方法,通过组内相对归一化来估计优势,有效降低了训练信号方差。DAPO、CISPO、Dr. GRPO 等后续工作进一步优化了采样策略、裁剪阈值和损失归一化。
离线策略优化 (Off-policy Optimization):
通过解耦数据收集和策略学习来提高样本效率。这包括解决训练-推理精度差异(如模型量化)造成的离线策略问题;利用异步经验回放机制(如 Retrospective Replay、EFRame)重复利用历史轨迹;以及更广泛的离线优化方法,如 SPO、TOPR 等优化器级别改进,DPO 等数据级别离线学习,以及混合策略方法 (Mix-Policy Methods),结合 SFT 和 RL,在损失函数或数据层面整合专家数据,以平衡稳定性与探索。
正则化目标 (Regularization Objectives):
用于平衡探索与利用,增强 RL 效率和策略性能。包括 KL 正则化(约束当前策略与参考策略或旧策略的距离,以防止灾难性漂移)、熵正则化(鼓励探索,避免熵坍塌)和长度惩罚(管理生成序列的长度,平衡推理深度和计算成本)。

采样策略 (Sampling Strategy)
采样策略方面,文章探讨了如何主动地策划rollout来影响学习效率和行为质量
动态与结构化采样 (Dynamic and Structured Sampling):
动态采样 (Dynamic Sampling):
根据在线学习信号(如成功率、优势、不确定性或估计难度)自适应地选择 Prompt 和分配计算预算。效率导向的采样(如 PRIME、DAPO)聚焦于中等难度的例子,避免饱和或无用的样本;探索导向的采样(如 ARPO、DARS)通过熵引导或动态分配样本数量来增加多样性。
结构化采样 (Structured Sampling):
不仅控制采样内容,还控制推理轨迹的拓扑结构,例如搜索驱动的树形 Rollout(如 TreeRL、ToTRL),将推理视为树而非链,并在节点级别分配奖励;或共享前缀/分段方案(如 SPO、TreePO),提高生成效率和计算重用。
采样超参数 (Sampling Hyper-parameters):
通过精心调整超参数来管理探索-利用权衡和序列长度。例如,分阶段的温度增加或动态调度来调整探索广度;分阶段上下文长度延长来平衡推理深度和计算成本;以及对超长序列的过滤或惩罚机制。
总结
–
文章深入探讨了 RL for LRMs 中的几个基础性问题:
RL 的作用:磨砺 (Sharpening) 还是发现 (Discovery):
RL 是仅能优化基模型中已有的正确模式,还是能够发现基模型未曾获取的全新模式?这涉及 KL 散度优化中的模式覆盖 (mode-covering) 与模式寻找 (mode-seeking) 行为。
RL 与 SFT:泛化 (Generalize) 还是记忆 (Memorize):
RL 与 SFT 在泛化能力和记忆能力方面的根本差异,以及如何权衡二者的优点。
模型先验 (Model Prior):弱先验 (Weak) 还是强先验 (Strong):
如何选择 RL 训练的起始模型,是选择一个能力较弱的模型让 RL 从头开始学习,还是选择一个能力较强的模型进行微调。
训练方案 (Training Recipes):技巧 (Tricks) 还是陷阱 (Traps):
在实践中,许多训练技巧有效,但其底层机制和潜在风险(如奖励作弊)仍需深入分析。
奖励类型 (Reward Type):过程 (Process) 还是结果 (Outcome):
是关注推理的中间步骤(过程奖励)还是最终结果(结果奖励)?这与奖励的稀疏性和信用分配问题密切相关。

文章还回顾了训练资源,包括静态语料库(数学、代码、STEM、Agent 和混合任务),动态环境(规则、代码、游戏、集成环境),以及 RL 基础设施和框架(如 OpenRLHF、veRL、AReaL、slime、TRL)。同时,文章列举了 RL 在下游应用中的广泛实践,涵盖了代码任务、Agentic 任务、多模态任务、多Agent 系统、机器人任务和医疗任务。
最后,文章展望了 RL for LLMs 的未来方向,包括持续 RL、基于记忆的 RL、基于模型的 RL、教导 LRM 有效推理、教导 LLM 潜在空间推理、RL for LLM 预训练、RL for 基于扩散的 LLM、RL for LLM 在科学发现中的应用,以及 RL for 架构-算法协同设计。
总而言之,本文对 RL for LRMs 进行了全面而深入的综述,从基础组件到核心问题,再到训练资源和广泛应用,旨在促进该领域未来的研究,并推动 RL 向更通用、更强大的推理模型发展,最终实现 ASI。
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01 教学内容

-
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
-
大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。

vx扫描下方二维码即可
本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03 入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:
04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
05 行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!
06 90+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
更多推荐

所有评论(0)