强化学习真能“教会“智能体推理吗？拆解 Agentic RL 的边界与配方

（arXiv:2504.13837）给出了一个冷静的观察：在 pass@k 这种"采样 k 次只要有一次对就算对"的指标下，经过 RLVR（Reinforcement Learning with Verifiable Rewards）训练的模型，当 k 取得足够大时，其可达到的解题集合。所以正确的工程顺序是——先选够强的基座，再用真实轨迹 SFT 把目标行为塞进分布，最后用回合级奖励的 RL 去"

凯丨

8人浏览 · 2026-06-03 14:05:37

凯丨 · 2026-06-03 14:05:37 发布

请添加图片描述

TL;DR

用强化学习（Reinforcement Learning, RL）训练智能体已经成为提升推理的主流路线，但两个核心争议始终没有消散：RL 到底是在"教"出新能力，还是只在"放大"基座模型已有的能力？多轮工具调用这种长链任务，奖励该怎么给？本文结合《Demystifying Reinforcement Learning in Agentic Reasoning》与《Does RL Really Incentivize Reasoning Capacity Beyond the Base Model?》两篇研究，拆解 Agentic RL 的真实边界与一套可落地的配方。

1. 争议的起点：RL 是"创造"还是"放大"

DeepSeek-R1 之后，"用可验证奖励做 RL 提升推理"几乎成了行业默认动作。但《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》（arXiv:2504.13837）给出了一个冷静的观察：在 pass@k 这种"采样 k 次只要有一次对就算对"的指标下，经过 RLVR（Reinforcement Learning with Verifiable Rewards）训练的模型，当 k 取得足够大时，其可达到的解题集合并没有真正超出基座模型的采样覆盖范围。

换句话说，RL 更像是把基座模型本来"偶尔能蒙对"的那条推理路径，概率质量重新分配、让它更稳定地被采到，而不是凭空创造一条基座完全够不到的新路径。这对工程实践的含义很直接：基座模型的能力上限，基本决定了 RL 的天花板。如果某类推理基座一次都采不出正确解，指望 RL 把它"练"出来通常是徒劳——更该做的是换更强基座，或补监督微调（SFT）数据。

2. 从单轮到多轮：Agentic RL 难在哪

把上面的结论搬到智能体场景，难度陡增。单轮做题，奖励是题目对错，信号干净。但一个真实 Agent 要做的是多轮、带工具调用的决策链：读问题 → 调搜索 → 看返回 → 再调计算器 → 综合作答。这天然是一个马尔可夫决策过程（Markov Decision Process, MDP），而它带来三个老大难问题：

信用分配（credit assignment）。最终答对了，功劳到底归第 2 步那次正确的检索，还是第 4 步的综合？只在最后给一个稀疏奖励，模型很难知道该强化哪一步。

长链方差。链条越长，轨迹之间的回报方差越大，策略梯度估计越不稳，训练容易崩溃。

工具噪声。工具返回本身可能出错或为空，模型需要学会区分"是我决策错了"还是"工具这次没给力"，否则会把环境噪声错误地内化成自己的策略。

3. 一套可落地的配方

《Demystifying Reinforcement Learning in Agentic Reasoning》（arXiv:2510.11701）系统地梳理了让 Agentic RL 真正跑通的几个关键变量，可以提炼成下面这套配方：

数据先于算法。真实的端到端 agentic 轨迹（而非合成的、过于干净的轨迹）做 SFT 冷启动，再接 RL，效果显著优于直接上 RL。一个高质量的 agentic SFT 数据集 + 高质量 RL 数据集的组合，在 AIME2024/2025、GPQA-Diamond、LiveCodeBench-v6 等多个硬基准上都被验证有效。本质原因回到第 1 节：RL 放大的是基座已有路径，那就先用 SFT 把"正确的工具使用路径"注入基座的采样分布里，RL 才有东西可放大。

回合级奖励（turn-level reward）而非只给终局奖励。与其只在轨迹末尾给一个稀疏信号，不如为每一回合的工具调用设计中间奖励——比如"这次检索是否返回了有用证据"。这直接缓解了信用分配难题，多轮推理的强化研究（如 Turn-Level Reward Design 一类工作）反复印证了它对稳定性的帮助。

把编排也当成可学习对象。更前沿的方向（如 MAS-Orchestra 一类训练时框架）把"多智能体编排"本身形式化成 function-calling 的 RL 问题，让系统学会"何时该派哪个子智能体、何时该停"，并配套受控评测基准（如 MASBENCH）来衡量。这意味着 RL 的作用域从"单个模型的推理"扩展到了"整个智能体系统的调度"。

4. 这意味着什么

把三点串起来：RL 不是魔法，它的上限被基座框死，它真正擅长的是把已经存在但不稳定的好行为，训得稳定可复现。所以正确的工程顺序是——先选够强的基座，再用真实轨迹 SFT 把目标行为塞进分布，最后用回合级奖励的 RL 去"压实"它，并在多智能体场景把编排也纳入优化。指望单靠一招 RL 拔高推理，大概率会撞上天花板。

参考资料

Demystifying Reinforcement Learning in Agentic Reasoning, arXiv:2510.11701: https://arxiv.org/pdf/2510.11701
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, arXiv:2504.13837: https://arxiv.org/pdf/2504.13837

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

神经网络基础知识-分享教材

用一条线把"线性方程 → 非线性激活 → 神经元 → 正向传播 → 反向传播 → CNN → RNN → LSTM → NLP → 大模型"串起来

2048 AI社区

越会“想“越爱乱来？聊聊大模型的“推理陷阱

2048 AI社区

构建生产级 AI Agent 记忆系统：OpenSearch 向量检索引擎与主流向量数据库全方位对比

本文探讨了如何利用OpenSearch的KNN功能为AI Agent构建长期记忆系统。OpenSearch通过融合KNN向量检索和BM25关键词检索，在搜索引擎和向量数据库之间找到平衡点。文章详细解析了OpenSearch KNN的发展阶段和配置方法，重点介绍了Index Mapping设计，包括关键字段如user_id、category、memory_vector等的设置。同时提供了Python