第十一章 Agentic-RL

Agentic RL(基于强化学习的智能体训练)传统监督学习存在三个问题1、数据质量决定训练质量，模型只能模仿，难以超越2、缺乏探索能力，只能被动学习人类提供路径3、难以优化长期目标，无法精确优化多步推理强化学习提供了新的可能性。通过让智能体自主生成多个候选答案并根据正确性获得奖励，它可以学习哪些推理路径更优、哪些步骤是关键，甚至发现比人类标注更好的解题方法[8]。

拉普拉斯之妖44

769人浏览 · 2026-01-25 21:21:48

拉普拉斯之妖44 · 2026-01-25 21:21:48 发布

11.1 从 LLM 训练到 Agentic RL

Agentic RL(基于强化学习的智能体训练)

11.1.1 从强化学习到 Agentic RL

智能体:基于 LLM 的推理系统
环境:数学问题和验证系统
状态:当前的问题描述和已有的推理步骤
行动:生成下一步推理或最终答案
奖励:答案是否正确(正确+1，错误 0)

传统监督学习存在三个问题
1、数据质量决定训练质量，模型只能模仿，难以超越
2、缺乏探索能力，只能被动学习人类提供路径
3、难以优化长期目标，无法精确优化多步推理
强化学习提供了新的可能性。通过让智能体自主生成多个候选答案并根据正确性获得奖励，它可以学习哪些推理路径更优、哪些步骤是关键，甚至发现比人类标注更好的解题方法[8]。这就是 Agentic RL 的核心思想:将 LLM 作为可学习策略，嵌入智能体的感知-决策-执行循环，通过强化学习优化多步任务表现。

11.1.2 LLM 训练全景图

在深入 Agentic RL 之前，我们需要先理解 LLM 训练的完整流程。一个强大的 LLM(如 GPT、Claude、Qwen)的诞生，通常要经历两个主要阶段:预训练(Pretraining)和后训练(Post-training)。
![[Pasted image 20260125120611.png]]

[[大模型整个训练流程]]

首先是预训练得到一个模型，但这个模型不懂人类的指令，所以要进行后训练，先是分两路，
一路是进行SFT，目的是让模型学会遵循指令和对话格式，训练数据是(prompt， completion)对
一路是进行RM奖励建模，和sft并列，建模主要是进行一个打分/排序模型，
然后在这两个的基础上进行RL强化学习

里面有一个问题值得注意，
奖励模型（RM）不能在 SFT 的基础上“顺着做”，
因为 SFT 学的是「怎么生成」，
RM 学的是「怎么判断好坏」，
两者在目标函数、数据形式、梯度方向上是冲突的。

[[Agentic RL和RLHF区别是什么？]]
RLHF：奖励主要来自“最终回答质量”，几乎不建模中间过程
Agentic RL：奖励作用在“行为轨迹（trajectory）”，中间过程本身就是学习对象
Agentic RL有credit assignment，这个是最本质的区别
Credit assignment = 出了一个结果以后，
要把“功劳或锅”正确分配给之前每一步行为
那agentic rl是怎么实现Credit assignment的
当执行某个任务，完成的很好，比如得了十分，而完成这个任务的平均分是5分，所以advantage就是五分
然后这个advantage会分别乘到这条链上所有action的log-prob（对数概率，即概率的对数，概率越大，越接近0）上
即通过这个advantage去增加他们的概率

如果reward是负数，即会对应降低这一条链上的所有的概率

==预训练阶段==是 LLM 训练的第一阶段，目标是让模型学习语言的基本规律和世界知识。这个阶段使用海量的文本数据(通常是数 TB 级别)，通过自监督学习的方式训练模型。最常见的预训练任务是因果语言建模(Causal Language Modeling)，也称为下一个词预测(Next Token Prediction)。
==后训练阶段==则是要解决预训练模型的不足。预训练后的模型虽然具备了强大的语言能力，但它只是一个"预测下一个词"的模型，并不知道如何遵循人类的指令、生成有帮助无害诚实的回答、拒绝不当的请求，以及以对话的方式与人交互。后训练阶段就是要解决这些问题，让模型对齐人类的偏好和价值观。

后训练通常包含三个步骤。
第一步是==监督微调(SFT)[==15]，目标是让模型学会遵循指令和对话格式。训练数据是(prompt， completion)对，训练目标与预训练类似，仍然是最大化正确输出的概率:
第二步是奖励建模(RM)。SFT 后的模型虽然能遵循指令，但生成的回答质量参差不齐。我们需要一种方式来评估回答的质量，这就是奖励模型的作用[13,14]。
第三步是强化学习微调。有了奖励模型后，我们就可以用强化学习来优化语言模型，让它生成更高质量的回答。最经典的算法是 PPO(Proximal Policy Optimization)

传统的 ==人类反馈强化学习RLHF(==Reinforcement Learning from Human Feedback)[5]需要大量人工标注偏好数据，成本高昂。为了降低成本，研究者提出了 AI 反馈强化学习RLAIF(Reinforcement Learning from AI Feedback)[7]，用强大的 AI 模型(如 GPT-4)来替代人类标注员。RLAIF 的工作流程是:用 SFT 模型生成多个候选回答，用强大的 AI 模型对回答进行评分和排序，用 AI 的评分训练奖励模型，用奖励模型进行强化学习。实验表明，RLAIF 的效果接近甚至超过 RLHF，同时成本大幅降低[11]。

11.1.3 Agentic RL 的核心理念

传统的后训练(我们称之为 PBRFT: Preference-Based Reinforcement Fine-Tuning)主要关注单轮对话的质量优化:给定一个用户问题，模型生成一个回答，然后根据回答的质量获得奖励。这种方式适合优化对话助手，但对于需要多步推理、工具使用、长期规划的智能体任务来说，就显得力不从心了。
==Agentic RL==则是一种新的范式，它将 LLM 视为一个可学习的策略，嵌入在一个顺序决策循环中。在这个框架下，智能体需要在动态环境中与外部世界交互，执行多步行动来完成复杂任务，获得中间反馈来指导后续决策，优化长期累积奖励而非单步奖励。
例子如下：
在 PBRFT 场景中，用户问"请解释什么是强化学习"，模型生成完整回答，然后根据回答质量直接给分。而在 Agentic RL 场景中，用户请求"帮我分析这个 GitHub 仓库的代码质量"，智能体需要经历多个步骤:首先调用 GitHub API 获取仓库信息，成功获得仓库结构和文件列表，得到+0.1 的奖;然后读取主要代码文件，成功获得代码内容，得到+0.1 的奖励;接着分析代码质量合理，得到+0.2 的奖励;最后生成分析报告质量高，得到+0.6 的奖励。总奖励是所有步骤的累积:1.0。

可以看到，Agentic RL 的关键特征是多步交互、每一步的行动都会改变环境状态、每一步都可以获得反馈、优化整个任务的完成质量。

==强化学习是基于马尔可夫决策过程(Markov Decision Process， MDP)==框架进行形式化的

Agentic RL 的目标是赋予 LLM 智能体六大核心能力
![[Pasted image 20260125131149.png]]
==推理(Reasoning)==是指从给定信息中逻辑地得出结论的过程，是智能体的核心能力。传统的 CoT 提示方法依赖少样本示例，泛化能力有限;SFT 只能模仿训练数据中的推理模式，难以创新。强化学习的优势在于通过试错学习有效的推理策略，发现训练数据中没有的推理路径，学会何时需要深度思考、何时可以快速回答。
**工具使用(Tool Use)**是指智能体调用外部工来完成任务的能力。

==记忆(Memory)==是指智能体保持和重用过去信息的能力，对于长期任务至关重要。LLM 的上下文窗口有限，静态检索策略(如 RAG)无法针对任务优化。强化学习让智能体学会记忆管理策略:决定哪些信息值得记住、何时更新记忆、何时删除过时信息。这类似于人类的工作记忆，我们会主动管理大脑中的信息，保留重要的、遗忘无关的。

==规划(Planning)==是指制定行动序列以达成目标的能力。传统的 CoT 是线性思考，无法回溯;提示工程使用静态规划模板，难以适应新情况。强化学习让智能体学会动态规划:通过试错发现有效的行动序列，学会权衡短期和长期收益。例如，在多步任务中，智能体可能需要先执行一些看似"绕路"的步骤，例如收集信息，才能最终完成任务。

==自我改进(Self-Improvement)==是指智能体回顾自身输出、纠正错误并优化策略的能力。强化学习让智能体学会自我反思:识别自己的错误、分析失败原因、调整策略。这种能力使得智能体能够在没有人工干预的情况下持续改进，类似于人类的"从错误中学习"。

==感知(Perception)==是指理解多模态信息的能力。例如，强化学习可以提升视觉推理能力，让模型学会使用视觉工具，学会视觉规划。这使得智能体不仅能理解文本，还能理解和操作视觉世界。

11.1.4 HelloAgents 的 Agentic RL 设计

集成了 TRL(Transformer Reinforcement Learning)框架[9]，模型选择 Qwen3-0.6B[10]。TRL 是 Hugging Face 的强化学习库，成熟稳定、功能完整、易于集成。Qwen3-0.6B 是阿里云的小型语言模型，0.6B 参数适合普通 GPU 训练，性能优秀且开源免费
![[Pasted image 20260125132116.png]]

11.2 数据集与奖励函数

数据集和奖励函数是强化学习训练的两大基石。数据集定义了智能体要学习的任务，奖励函数定义了什么是好的行为。在本节中，我们将学习如何准备训练数据和设计奖励函数。

11.2.1 GSM8K 数学推理数据集

数学推理是评估 LLM 推理能力的理想任务。首先，数学问题有明确的正确答案，可以自动评估，不需要人工标注或复杂的奖励模型。其次，解决数学问题需要分解问题、逐步推导，这正是多步推理的典型场景。
![[Pasted image 20260125145004.png]]
![[Pasted image 20260125145148.png]]

11.2.2 奖励函数设计

奖励函数是强化学习的核心，它定义了什么是"好的行为"。好的奖励函数应该能清楚地定义什么是成功、能够提供梯度信号、不会产生过大的方差、容易调整和组合。糟糕的奖励函数可能只在任务结束时给奖励，中间步骤无反馈、存在奖励欺骗，使得智能体找到"作弊"方式获得高奖励、多个目标相互矛盾、方差过大，训练不收敛。

（1）准确率奖励
准确率奖励(AccuracyReward)是最基础的奖励函数，它只关心答案是否正确。
（2）长度惩罚
长度惩罚(LengthPenaltyReward)鼓励模型生成简洁的回答，避免冗长啰嗦。
（3）步骤奖励

步骤奖励(StepReward)鼓励模型生成清晰的推理步骤，提高可解释性。

11.2.3 自定义数据集和奖励函数

SFT 格式:用于监督微调，需要包含以下字段:

prompt: 输入提示(包含 system 和 user 消息)
completion: 期望的输出
text: 完整的对话文本(可选)

RL 格式:用于强化学习，需要包含以下字段:

question: 原始问题
prompt: 输入提示(包含 system 和 user 消息)
ground_truth: 正确答案
full_answer: 完整答案(包含推理过程)

11.3 SFT 训练

监督微调(Supervised Fine-Tuning， SFT)是强化学习训练的第一步，也是最重要的基础。SFT 让模型学习任务的基本格式、对话模式和初步的推理能力。没有 SFT 的基础，直接进行强化学习往往会失败，因为模型连基本的输出格式都不会。

11.3.1 为什么需要 SFT

SFT 的作用是教会模型任务的基本规则。首先，学习输出格式，让模型知道如何组织答案(如使用"Step 1"， "Final Answer"等标记)。其次，学习推理模式，通过示例学习如何分解问题、逐步推导。再次，建立基线能力，为后续的强化学习提供一个合理的起点。最后，减少探索空间，强化学习不需要从零开始，可以在 SFT 的基础上优化。
![[Pasted image 20260125151922.png]]

11.3.2 LoRA:参数高效微调

直接微调整个模型需要大量的计算资源和显存。对于 Qwen3-0.6B(0.6B 参数)，全量微调需要约 12GB 显存(FP16)或 24GB 显存(FP32)。对于更大的模型(如 7B、13B)，全量微调几乎不可能在消费级 GPU 上进行。

LoRA(Low-Rank Adaptation)[3]是一种参数高效微调方法，它只训练少量的额外参数，而保持原模型参数冻结。LoRA 的核心思想是:模型微调时的参数变化可以用低秩矩阵表示。

假设原模型的权重矩阵为 $\in \mathbb{R}^{d \times k}$ ，微调后的权重为 𝑊′=𝑊+Δ𝑊。LoRA 假设 Δ𝑊可以分解为两个低秩矩阵的乘积:
ΔW=BA
![[Pasted image 20260125153105.png]]
参数量对比:原模型参数量为 𝑑×𝑘d×k，LoRA 参数量为 𝑑×𝑟+𝑟×𝑘=𝑟(𝑑+𝑘)d×r+r×k=r(d+k)。当 𝑟≪min⁡(𝑑,𝑘)r≪min(d,k) 时，LoRA 参数量远小于原模型。例如，对于 𝑑=4096,𝑘=4096,𝑟=8d=4096,k=4096,r=8 的情况，原模型参数量为 4096×4096=16,777,2164096×4096=16,777,216，LoRA 参数量为 8×(4096+4096)=65,5368×(4096+4096)=65,536，参数量减少了 256 倍!

因此可以总结 LoRA 的优势:显存占用大幅降低、训练速度更快、易于部署、防止过拟合。不过训练的效果通常情况会比全量调参更差一些。

LoRA 的关键超参数包括:秩(rank，r)，控制 LoRA 矩阵的秩，越大表达能力越强，但参数量也越多==，典型值为 4-64，默认 8==;Alpha(𝛼α)，LoRA 的缩放因子，实际更新为 Δ𝑊=𝛼𝑟𝐵𝐴ΔW=rαBA，控制 LoRA 的影响强度，典型值等于 rank;目标模块(target_modules)，指定哪些层应用 LoRA，通常选择注意力层(q_proj， k_proj， v_proj， o_proj)，也可以包括 MLP 层(gate_proj， up_proj， down_proj)。

那一个问题，r就必须取秩吗，并不是，这个r是你允许的最大 rank。你实际学到的rank通常会比这个小，然后取8的整数倍，方便gpu计算

（3）训练监控和调试
在训练过程中，我们需要监控三个关键指标。
==损失(Loss)==应该逐渐下降，如果不下降可能是学习率太小或数据有问题，如果下降后又上升则可能是学习率太大或出现过拟合。
==梯度范数(Gradient Norm)==应该在 0.1-10 的合理范围内，过大(>100)说明出现梯度爆炸需要降低学习率，过小(<0.01)说明梯度消失需要检查模型配置。
==学习率(Learning Rate)==应该按照 warmup 策略变化，前 10%步数线性增加，然后线性衰减到 0。

训练中常见的问题及解决方案:显存不足时可以减小 batch_size 或 max_length，使用梯度累积或更小的模型;训练速度慢时可以增大 batch_size，减少 logging 频率，或使用混合精度训练;损失不下降时可以增大学习率，检查数据格式，或增加训练轮数;过拟合时可以增大 weight_decay，减少训练轮数，或使用更多数据。

11.3.4 模型评估

训练完成后，我们需要评估模型的效果。评估指标包括:

准确率(Accuracy):答案完全正确的比例，最直接的指标，范围 0-1，越高越好。

平均奖励(Average Reward):所有样本的平均奖励，综合考虑准确率、长度、步骤等因素，范围取决于奖励函数设计。

推理质量(Reasoning Quality):推理过程的清晰度和逻辑性，需要人工评估或使用专门的评估模型。

11.4 GRPO 训练

在完成 SFT 训练后，我们已经得到了一个能够生成结构化答案的模型。但是，SFT 模型只是学会了"模仿"训练数据中的推理过程，并没有真正学会"思考"。强化学习可以让模型通过试错来优化推理策略，从而超越训练数据的质量。

11.4.1 从 PPO 到 GRPO

[[PPO到GRPO自己话总结]]

通俗易懂的来说
PPO的总体流程就是用policy model（训练的模型）去生成样本组，然后计算奖励V，用v去计算advantage，然后去更新policy和value
[[Agentic RL和RLHF区别是什么？]]
他主要有四个模型
1、policy model（待训练的模型）
2、reference model （被冻结的老模型）
3、reward model 打分模型
4、value model 估分基准模型
advantage=reward-value，如果是多步的（即中间有reward的，即用累计的reward-value）

然后GRPO是对PPO的一种简化方法，他不需要value model，使用组内相对奖励代替绝对奖励，取代了V

理论上只需要 Policy Model 和 Reference Model;
那他怎么算reward，如果有真值答案，那直接真值判分
也可以用llm as judge，看具体情况
PPO的问题就是太依赖老师的value能力，这个value很有可能不准
而GRPO一次生成多条样本，只进行相对比较，用均值（或者别的）作为PPO里面的value
然后再拿reward减去group_mean_reward

在强化学习领域，PPO(Proximal Policy Optimization)[1]是最经典的算法之一。PPO 通过限制策略更新的幅度，保证训练的稳定性。但是，PPO 在 LLM 训练中存在一些问题:需要训练 Value Model(价值模型)，增加了训练复杂度和显存占用;需要同时维护四个模型(Policy Model、Reference Model、Value Model、Reward Model)，工程实现复杂;训练不稳定，容易出现奖励崩塌或策略退化。

GRPO(Group Relative Policy Optimization)[2]是一种简化的 PPO 变体，专门为 LLM 设计。GRPO 的核心思想是:不需要 Value Model，使用组内相对奖励代替绝对奖励;简化训练流程，只需要 Policy Model 和 Reference Model;提高训练稳定性，减少奖励崩塌的风险。
![[Pasted image 20260125164157.png]]
![[Pasted image 20260125163234.png]]
https://mp.weixin.qq.com/s/1phqxsmsDCGm14p4kesKaA

GRPO 训练的前提是已经完成 SFT 训练，因为 GRPO 需要一个合理的初始策略。

11.4.3 GRPO 训练过程解析

（1）训练循环
GRPO 的训练循环包括以下步骤:

采样阶段:对于每个问题，使用当前策略生成多个答案(num_generations个)。这些答案构成一个"组"，用于计算相对奖励。
奖励计算:对每个生成的答案计算奖励 𝑟𝑖ri。奖励可以是准确率、长度惩罚、步骤奖励或它们的组合。
相对奖励:计算组内平均奖励 𝑟ˉ=1𝑁∑𝑖=1𝑁𝑟𝑖rˉ=N1∑i=1Nri，然后计算相对奖励 𝑟^{𝑖=𝑟𝑖−𝑟ˉr}i=ri−rˉ。这样做的好处是减少奖励方差，使训练更稳定。（也可以把部分系统误差减掉）
策略更新:使用相对奖励更新策略，同时添加 KL 散度惩罚，防止策略偏离参考模型太远。
重复:重复上述步骤，直到完成所有训练轮次。

（2）KL 散度惩罚
KL 散度惩罚是 GRPO 的关键组成部分，它防止策略偏离参考模型太远。KL 散度定义为:![[Pasted image 20260125172533.png]]
在实践中，我们计算每个 token 的 KL 散度，然后求和:
![[Pasted image 20260125172550.png]]
KL 散度越大，说明当前策略与参考模型差异越大。通过添加 KL 散度惩罚项 −𝛽⋅𝐷𝐾𝐿，我们限制策略更新的幅度，避免"遗忘"SFT 阶段学到的知识。

kl_coef (𝛽) 的选择很重要:

太小(0.01):策略可能偏离太远，导致输出格式混乱或质量下降
太大(0.5):策略更新受限，学习缓慢，难以超越 SFT 模型
建议(0.05-0.1):平衡探索和稳定性

（3）训练监控

在 GRPO 训练过程中，我们需要监控以下指标:

平均奖励(Average Reward):应该逐渐上升。如果奖励不上升，可能是学习率太小、KL 惩罚太大、奖励函数设计不合理。如果奖励先升后降，可能是过拟合或奖励崩塌。
KL 散度(KL Divergence):应该保持在合理范围内(0.01-0.1)。如果 KL 散度过大(>0.5)，说明策略偏离太远，需要增大 kl_coef 或降低学习率。如果 KL 散度过小(<0.001)，说明策略几乎没有更新，需要减小 kl_coef 或增大学习率。
准确率(Accuracy):应该逐渐提升。这是最直观的指标，反映模型的实际能力。
生成质量(Generation Quality):需要人工检查生成的答案，确保格式正确、推理清晰。

HelloAgents 集成了两种主流的训练监控工具:Weights & Biases(wandb)和 TensorBoard。

在 GRPO 训练中，可能会遇到一些问题。当奖励不上升时，可能是学习率太小或 KL 惩罚太大限制了策略更新，也可能是奖励函数设计不合理或 SFT 模型质量太差，此时可以增大学习率(从 1e-5 到 5e-5)、减小 kl_coef(从 0.1 到 0.05)、检查奖励函数或重新训练 SFT 模型。

当 KL 散度爆炸(超过 0.5 甚至 1.0)导致生成答案格式混乱时，通常是学习率太大或 KL 惩罚太小，或者奖励函数过于激进，可以降低学习率(从 5e-5 到 1e-5)、增大 kl_coef(从 0.05 到 0.1)、调整奖励函数或使用梯度裁剪。

11.5 模型评估与分析

训练完成后，我们需要全面评估模型的性能，不仅要看准确率这一个指标，还要深入分析模型的推理质量、错误模式、泛化能力等。本节将介绍如何系统地评估和分析 Agentic RL 模型。

（1）准确性指标

准确性指标衡量模型是否能够得出正确答案。

准确率(Accuracy):最基本的指标，答案完全正确的比例。计算公式为:Accuracy=正确答案数总问题数
![[Pasted image 20260125182930.png]]
优点是简单直观，易于理解和比较。缺点是无法区分"接近正确"和"完全错误",对于复杂任务可能过于粗糙。

Top-K 准确率:生成 K 个答案，只要有一个正确就算对。计算公式为:
![[Pasted image 20260125183525.png]]
数值误差(Numerical Error):对于数学问题，可以计算预测值与真实值的误差。计算公式为:
![[Pasted image 20260125183545.png]]
（2）效率指标
效率指标衡量模型生成答案的成本。
平均长度(Average Length):生成答案的平均 token 数。计算公式为:
![[Pasted image 20260125183846.png]]
（3）质量指标
质量指标衡量答案的可读性和可解释性。
格式正确率(Format Correctness):答案是否符合预期格式(如包含"Step 1"， "Final Answer"等标记)。计算公式为:
![[Pasted image 20260125184357.png]]
格式正确是基本要求，格式混乱的答案即使结果正确也难以使用。
推理连贯性(Reasoning Coherence):推理步骤之间是否逻辑连贯。这个指标通常需要人工评估或使用专门的评估模型。
可解释性(Explainability):答案是否容易理解和验证。包含清晰步骤的答案比直接给出结果的答案更具可解释性。

![[Pasted image 20260125184610.png]]

11.5.3 错误分析

仅仅知道准确率是不够的，我们需要深入分析模型在哪些类型的问题上容易出错，从而指导后续改进。模型的错误可以分为四类:计算错误(推理步骤正确但计算出错，如"48/2=25"，说明数值计算能力不足)、推理错误(推理逻辑错误导致解题思路不对，如先加后除而非先除后加，说明逻辑推理能力不足)、理解错误(没有正确理解问题，如问题问"总共"但只计算了一部分，说明语言理解能力不足)、格式错误(答案正确但格式不符合要求，如缺少"Final Answer:"标记，说明格式学习不足)。

“计算错误”: 0
, “推理错误”: 0,
“理解错误”: 0,
“格式错误”: 0,
![[Pasted image 20260125185714.png]]