强化学习真能“教会“智能体推理吗?拆解 Agentic RL 的边界与配方
(arXiv:2504.13837)给出了一个冷静的观察:在 pass@k 这种"采样 k 次只要有一次对就算对"的指标下,经过 RLVR(Reinforcement Learning with Verifiable Rewards)训练的模型,当 k 取得足够大时,其可达到的解题集合。所以正确的工程顺序是——先选够强的基座,再用真实轨迹 SFT 把目标行为塞进分布,最后用回合级奖励的 RL 去"

TL;DR
用强化学习(Reinforcement Learning, RL)训练智能体已经成为提升推理的主流路线,但两个核心争议始终没有消散:RL 到底是在"教"出新能力,还是只在"放大"基座模型已有的能力?多轮工具调用这种长链任务,奖励该怎么给?本文结合《Demystifying Reinforcement Learning in Agentic Reasoning》与《Does RL Really Incentivize Reasoning Capacity Beyond the Base Model?》两篇研究,拆解 Agentic RL 的真实边界与一套可落地的配方。
1. 争议的起点:RL 是"创造"还是"放大"
DeepSeek-R1 之后,"用可验证奖励做 RL 提升推理"几乎成了行业默认动作。但《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?》(arXiv:2504.13837)给出了一个冷静的观察:在 pass@k 这种"采样 k 次只要有一次对就算对"的指标下,经过 RLVR(Reinforcement Learning with Verifiable Rewards)训练的模型,当 k 取得足够大时,其可达到的解题集合并没有真正超出基座模型的采样覆盖范围。
换句话说,RL 更像是把基座模型本来"偶尔能蒙对"的那条推理路径,概率质量重新分配、让它更稳定地被采到,而不是凭空创造一条基座完全够不到的新路径。这对工程实践的含义很直接:基座模型的能力上限,基本决定了 RL 的天花板。如果某类推理基座一次都采不出正确解,指望 RL 把它"练"出来通常是徒劳——更该做的是换更强基座,或补监督微调(SFT)数据。
2. 从单轮到多轮:Agentic RL 难在哪
把上面的结论搬到智能体场景,难度陡增。单轮做题,奖励是题目对错,信号干净。但一个真实 Agent 要做的是多轮、带工具调用的决策链:读问题 → 调搜索 → 看返回 → 再调计算器 → 综合作答。这天然是一个马尔可夫决策过程(Markov Decision Process, MDP),而它带来三个老大难问题:
信用分配(credit assignment)。最终答对了,功劳到底归第 2 步那次正确的检索,还是第 4 步的综合?只在最后给一个稀疏奖励,模型很难知道该强化哪一步。
长链方差。链条越长,轨迹之间的回报方差越大,策略梯度估计越不稳,训练容易崩溃。
工具噪声。工具返回本身可能出错或为空,模型需要学会区分"是我决策错了"还是"工具这次没给力",否则会把环境噪声错误地内化成自己的策略。
3. 一套可落地的配方
《Demystifying Reinforcement Learning in Agentic Reasoning》(arXiv:2510.11701)系统地梳理了让 Agentic RL 真正跑通的几个关键变量,可以提炼成下面这套配方:
数据先于算法。真实的端到端 agentic 轨迹(而非合成的、过于干净的轨迹)做 SFT 冷启动,再接 RL,效果显著优于直接上 RL。一个高质量的 agentic SFT 数据集 + 高质量 RL 数据集的组合,在 AIME2024/2025、GPQA-Diamond、LiveCodeBench-v6 等多个硬基准上都被验证有效。本质原因回到第 1 节:RL 放大的是基座已有路径,那就先用 SFT 把"正确的工具使用路径"注入基座的采样分布里,RL 才有东西可放大。
回合级奖励(turn-level reward)而非只给终局奖励。与其只在轨迹末尾给一个稀疏信号,不如为每一回合的工具调用设计中间奖励——比如"这次检索是否返回了有用证据"。这直接缓解了信用分配难题,多轮推理的强化研究(如 Turn-Level Reward Design 一类工作)反复印证了它对稳定性的帮助。
把编排也当成可学习对象。更前沿的方向(如 MAS-Orchestra 一类训练时框架)把"多智能体编排"本身形式化成 function-calling 的 RL 问题,让系统学会"何时该派哪个子智能体、何时该停",并配套受控评测基准(如 MASBENCH)来衡量。这意味着 RL 的作用域从"单个模型的推理"扩展到了"整个智能体系统的调度"。
4. 这意味着什么
把三点串起来:RL 不是魔法,它的上限被基座框死,它真正擅长的是把已经存在但不稳定的好行为,训得稳定可复现。所以正确的工程顺序是——先选够强的基座,再用真实轨迹 SFT 把目标行为塞进分布,最后用回合级奖励的 RL 去"压实"它,并在多智能体场景把编排也纳入优化。指望单靠一招 RL 拔高推理,大概率会撞上天花板。
参考资料
- Demystifying Reinforcement Learning in Agentic Reasoning, arXiv:2510.11701: https://arxiv.org/pdf/2510.11701
- Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?, arXiv:2504.13837: https://arxiv.org/pdf/2504.13837
更多推荐

所有评论(0)