第十一章 Agentic-RL
Agentic RL(基于强化学习的智能体训练)传统监督学习存在三个问题1、数据质量决定训练质量,模型只能模仿,难以超越2、缺乏探索能力,只能被动学习人类提供路径3、难以优化长期目标,无法精确优化多步推理强化学习提供了新的可能性。通过让智能体自主生成多个候选答案并根据正确性获得奖励,它可以学习哪些推理路径更优、哪些步骤是关键,甚至发现比人类标注更好的解题方法[8]。
11.1 从 LLM 训练到 Agentic RL
Agentic RL(基于强化学习的智能体训练)
11.1.1 从强化学习到 Agentic RL
- 智能体:基于 LLM 的推理系统
- 环境:数学问题和验证系统
- 状态:当前的问题描述和已有的推理步骤
- 行动:生成下一步推理或最终答案
- 奖励:答案是否正确(正确+1,错误 0)
传统监督学习存在三个问题
1、数据质量决定训练质量,模型只能模仿,难以超越
2、缺乏探索能力,只能被动学习人类提供路径
3、难以优化长期目标,无法精确优化多步推理
强化学习提供了新的可能性。通过让智能体自主生成多个候选答案并根据正确性获得奖励,它可以学习哪些推理路径更优、哪些步骤是关键,甚至发现比人类标注更好的解题方法[8]。这就是 Agentic RL 的核心思想:将 LLM 作为可学习策略,嵌入智能体的感知-决策-执行循环,通过强化学习优化多步任务表现。
11.1.2 LLM 训练全景图
在深入 Agentic RL 之前,我们需要先理解 LLM 训练的完整流程。一个强大的 LLM(如 GPT、Claude、Qwen)的诞生,通常要经历两个主要阶段:预训练(Pretraining)和后训练(Post-training)。
![[Pasted image 20260125120611.png]]
[[大模型整个训练流程]]
首先是预训练得到一个模型,但这个模型不懂人类的指令,所以要进行后训练,先是分两路,
一路是进行SFT,目的是让模型学会遵循指令和对话格式,训练数据是(prompt, completion)对
一路是进行RM奖励建模,和sft并列,建模主要是进行一个打分/排序模型,
然后在这两个的基础上进行RL强化学习
里面有一个问题值得注意,
奖励模型(RM)不能在 SFT 的基础上“顺着做”,
因为 SFT 学的是「怎么生成」,
RM 学的是「怎么判断好坏」,
两者在目标函数、数据形式、梯度方向上是冲突的。
[[Agentic RL和RLHF区别是什么?]]
RLHF:奖励主要来自“最终回答质量”,几乎不建模中间过程
Agentic RL:奖励作用在“行为轨迹(trajectory)”,中间过程本身就是学习对象
Agentic RL有credit assignment,这个是最本质的区别
Credit assignment = 出了一个结果以后,
要把“功劳或锅”正确分配给之前每一步行为
那agentic rl是怎么实现Credit assignment的
当执行某个任务,完成的很好,比如得了十分,而完成这个任务的平均分是5分,所以advantage就是五分
然后这个advantage会分别乘到这条链上所有action的log-prob(对数概率,即概率的对数,概率越大,越接近0)上
即通过这个advantage去增加他们的概率
如果reward是负数,即会对应降低这一条链上的所有的概率
==预训练阶段==是 LLM 训练的第一阶段,目标是让模型学习语言的基本规律和世界知识。这个阶段使用海量的文本数据(通常是数 TB 级别),通过自监督学习的方式训练模型。最常见的预训练任务是因果语言建模(Causal Language Modeling),也称为下一个词预测(Next Token Prediction)。
==后训练阶段==则是要解决预训练模型的不足。预训练后的模型虽然具备了强大的语言能力,但它只是一个"预测下一个词"的模型,并不知道如何遵循人类的指令、生成有帮助无害诚实的回答、拒绝不当的请求,以及以对话的方式与人交互。后训练阶段就是要解决这些问题,让模型对齐人类的偏好和价值观。
后训练通常包含三个步骤。
第一步是==监督微调(SFT)[==15],目标是让模型学会遵循指令和对话格式。训练数据是(prompt, completion)对,训练目标与预训练类似,仍然是最大化正确输出的概率:
第二步是奖励建模(RM)。SFT 后的模型虽然能遵循指令,但生成的回答质量参差不齐。我们需要一种方式来评估回答的质量,这就是奖励模型的作用[13,14]。
第三步是强化学习微调。有了奖励模型后,我们就可以用强化学习来优化语言模型,让它生成更高质量的回答。最经典的算法是 PPO(Proximal Policy Optimization)
传统的 ==人类反馈强化学习RLHF(==Reinforcement Learning from Human Feedback)[5]需要大量人工标注偏好数据,成本高昂。为了降低成本,研究者提出了 AI 反馈强化学习RLAIF(Reinforcement Learning from AI Feedback)[7],用强大的 AI 模型(如 GPT-4)来替代人类标注员。RLAIF 的工作流程是:用 SFT 模型生成多个候选回答,用强大的 AI 模型对回答进行评分和排序,用 AI 的评分训练奖励模型,用奖励模型进行强化学习。实验表明,RLAIF 的效果接近甚至超过 RLHF,同时成本大幅降低[11]。
11.1.3 Agentic RL 的核心理念
传统的后训练(我们称之为 PBRFT: Preference-Based Reinforcement Fine-Tuning)主要关注单轮对话的质量优化:给定一个用户问题,模型生成一个回答,然后根据回答的质量获得奖励。这种方式适合优化对话助手,但对于需要多步推理、工具使用、长期规划的智能体任务来说,就显得力不从心了。
==Agentic RL==则是一种新的范式,它将 LLM 视为一个可学习的策略,嵌入在一个顺序决策循环中。在这个框架下,智能体需要在动态环境中与外部世界交互,执行多步行动来完成复杂任务,获得中间反馈来指导后续决策,优化长期累积奖励而非单步奖励。
例子如下:
在 PBRFT 场景中,用户问"请解释什么是强化学习",模型生成完整回答,然后根据回答质量直接给分。而在 Agentic RL 场景中,用户请求"帮我分析这个 GitHub 仓库的代码质量",智能体需要经历多个步骤:首先调用 GitHub API 获取仓库信息,成功获得仓库结构和文件列表,得到+0.1 的奖;然后读取主要代码文件,成功获得代码内容,得到+0.1 的奖励;接着分析代码质量合理,得到+0.2 的奖励;最后生成分析报告质量高,得到+0.6 的奖励。总奖励是所有步骤的累积:1.0。
可以看到,Agentic RL 的关键特征是多步交互、每一步的行动都会改变环境状态、每一步都可以获得反馈、优化整个任务的完成质量。
==强化学习是基于马尔可夫决策过程(Markov Decision Process, MDP)==框架进行形式化的
Agentic RL 的目标是赋予 LLM 智能体六大核心能力
![[Pasted image 20260125131149.png]]
==推理(Reasoning)==是指从给定信息中逻辑地得出结论的过程,是智能体的核心能力。传统的 CoT 提示方法依赖少样本示例,泛化能力有限;SFT 只能模仿训练数据中的推理模式,难以创新。强化学习的优势在于通过试错学习有效的推理策略,发现训练数据中没有的推理路径,学会何时需要深度思考、何时可以快速回答。
**工具使用(Tool Use)**是指智能体调用外部工来完成任务的能力。
==记忆(Memory)==是指智能体保持和重用过去信息的能力,对于长期任务至关重要。LLM 的上下文窗口有限,静态检索策略(如 RAG)无法针对任务优化。强化学习让智能体学会记忆管理策略:决定哪些信息值得记住、何时更新记忆、何时删除过时信息。这类似于人类的工作记忆,我们会主动管理大脑中的信息,保留重要的、遗忘无关的。
==规划(Planning)==是指制定行动序列以达成目标的能力。传统的 CoT 是线性思考,无法回溯;提示工程使用静态规划模板,难以适应新情况。强化学习让智能体学会动态规划:通过试错发现有效的行动序列,学会权衡短期和长期收益。例如,在多步任务中,智能体可能需要先执行一些看似"绕路"的步骤,例如收集信息,才能最终完成任务。
==自我改进(Self-Improvement)==是指智能体回顾自身输出、纠正错误并优化策略的能力。强化学习让智能体学会自我反思:识别自己的错误、分析失败原因、调整策略。这种能力使得智能体能够在没有人工干预的情况下持续改进,类似于人类的"从错误中学习"。
==感知(Perception)==是指理解多模态信息的能力。例如,强化学习可以提升视觉推理能力,让模型学会使用视觉工具,学会视觉规划。这使得智能体不仅能理解文本,还能理解和操作视觉世界。
11.1.4 HelloAgents 的 Agentic RL 设计
集成了 TRL(Transformer Reinforcement Learning)框架[9],模型选择 Qwen3-0.6B[10]。TRL 是 Hugging Face 的强化学习库,成熟稳定、功能完整、易于集成。Qwen3-0.6B 是阿里云的小型语言模型,0.6B 参数适合普通 GPU 训练,性能优秀且开源免费
![[Pasted image 20260125132116.png]]
11.2 数据集与奖励函数
数据集和奖励函数是强化学习训练的两大基石。数据集定义了智能体要学习的任务,奖励函数定义了什么是好的行为。在本节中,我们将学习如何准备训练数据和设计奖励函数。
11.2.1 GSM8K 数学推理数据集
数学推理是评估 LLM 推理能力的理想任务。首先,数学问题有明确的正确答案,可以自动评估,不需要人工标注或复杂的奖励模型。其次,解决数学问题需要分解问题、逐步推导,这正是多步推理的典型场景。
![[Pasted image 20260125145004.png]]
![[Pasted image 20260125145148.png]]
11.2.2 奖励函数设计
奖励函数是强化学习的核心,它定义了什么是"好的行为"。好的奖励函数应该能清楚地定义什么是成功、能够提供梯度信号、不会产生过大的方差、容易调整和组合。糟糕的奖励函数可能只在任务结束时给奖励,中间步骤无反馈、存在奖励欺骗,使得智能体找到"作弊"方式获得高奖励、多个目标相互矛盾、方差过大,训练不收敛。
(1)准确率奖励
准确率奖励(AccuracyReward)是最基础的奖励函数,它只关心答案是否正确。
(2)长度惩罚
长度惩罚(LengthPenaltyReward)鼓励模型生成简洁的回答,避免冗长啰嗦。
(3)步骤奖励
步骤奖励(StepReward)鼓励模型生成清晰的推理步骤,提高可解释性。
11.2.3 自定义数据集和奖励函数
SFT 格式:用于监督微调,需要包含以下字段:
prompt: 输入提示(包含 system 和 user 消息)completion: 期望的输出text: 完整的对话文本(可选)
RL 格式:用于强化学习,需要包含以下字段:
question: 原始问题prompt: 输入提示(包含 system 和 user 消息)ground_truth: 正确答案full_answer: 完整答案(包含推理过程)
11.3 SFT 训练
监督微调(Supervised Fine-Tuning, SFT)是强化学习训练的第一步,也是最重要的基础。SFT 让模型学习任务的基本格式、对话模式和初步的推理能力。没有 SFT 的基础,直接进行强化学习往往会失败,因为模型连基本的输出格式都不会。
11.3.1 为什么需要 SFT
SFT 的作用是教会模型任务的基本规则。首先,学习输出格式,让模型知道如何组织答案(如使用"Step 1", "Final Answer"等标记)。其次,学习推理模式,通过示例学习如何分解问题、逐步推导。再次,建立基线能力,为后续的强化学习提供一个合理的起点。最后,减少探索空间,强化学习不需要从零开始,可以在 SFT 的基础上优化。
![[Pasted image 20260125151922.png]]
11.3.2 LoRA:参数高效微调
直接微调整个模型需要大量的计算资源和显存。对于 Qwen3-0.6B(0.6B 参数),全量微调需要约 12GB 显存(FP16)或 24GB 显存(FP32)。对于更大的模型(如 7B、13B),全量微调几乎不可能在消费级 GPU 上进行。
LoRA(Low-Rank Adaptation)[3]是一种参数高效微调方法,它只训练少量的额外参数,而保持原模型参数冻结。LoRA 的核心思想是:模型微调时的参数变化可以用低秩矩阵表示。
假设原模型的权重矩阵为 W ∈ R d × k W \in \mathbb{R}^{d \times k} W∈Rd×k,微调后的权重为 𝑊′=𝑊+Δ𝑊。LoRA 假设 Δ𝑊可以分解为两个低秩矩阵的乘积:
ΔW=BA
![[Pasted image 20260125153105.png]]
参数量对比:原模型参数量为 𝑑×𝑘d×k,LoRA 参数量为 𝑑×𝑟+𝑟×𝑘=𝑟(𝑑+𝑘)d×r+r×k=r(d+k)。当 𝑟≪min(𝑑,𝑘)r≪min(d,k) 时,LoRA 参数量远小于原模型。例如,对于 𝑑=4096,𝑘=4096,𝑟=8d=4096,k=4096,r=8 的情况,原模型参数量为 4096×4096=16,777,2164096×4096=16,777,216,LoRA 参数量为 8×(4096+4096)=65,5368×(4096+4096)=65,536,参数量减少了 256 倍!
因此可以总结 LoRA 的优势:显存占用大幅降低、训练速度更快、易于部署、防止过拟合。不过训练的效果通常情况会比全量调参更差一些。
LoRA 的关键超参数包括:秩(rank,r),控制 LoRA 矩阵的秩,越大表达能力越强,但参数量也越多==,典型值为 4-64,默认 8==;Alpha(𝛼α),LoRA 的缩放因子,实际更新为 Δ𝑊=𝛼𝑟𝐵𝐴ΔW=rαBA,控制 LoRA 的影响强度,典型值等于 rank;目标模块(target_modules),指定哪些层应用 LoRA,通常选择注意力层(q_proj, k_proj, v_proj, o_proj),也可以包括 MLP 层(gate_proj, up_proj, down_proj)。
那一个问题,r就必须取秩吗,并不是,这个r是你允许的最大 rank。你实际学到的rank通常会比这个小,然后取8的整数倍,方便gpu计算
(3)训练监控和调试
在训练过程中,我们需要监控三个关键指标。
==损失(Loss)==应该逐渐下降,如果不下降可能是学习率太小或数据有问题,如果下降后又上升则可能是学习率太大或出现过拟合。
==梯度范数(Gradient Norm)==应该在 0.1-10 的合理范围内,过大(>100)说明出现梯度爆炸需要降低学习率,过小(<0.01)说明梯度消失需要检查模型配置。
==学习率(Learning Rate)==应该按照 warmup 策略变化,前 10%步数线性增加,然后线性衰减到 0。
训练中常见的问题及解决方案:显存不足时可以减小 batch_size 或 max_length,使用梯度累积或更小的模型;训练速度慢时可以增大 batch_size,减少 logging 频率,或使用混合精度训练;损失不下降时可以增大学习率,检查数据格式,或增加训练轮数;过拟合时可以增大 weight_decay,减少训练轮数,或使用更多数据。
11.3.4 模型评估
训练完成后,我们需要评估模型的效果。评估指标包括:
准确率(Accuracy):答案完全正确的比例,最直接的指标,范围 0-1,越高越好。
平均奖励(Average Reward):所有样本的平均奖励,综合考虑准确率、长度、步骤等因素,范围取决于奖励函数设计。
推理质量(Reasoning Quality):推理过程的清晰度和逻辑性,需要人工评估或使用专门的评估模型。
11.4 GRPO 训练
在完成 SFT 训练后,我们已经得到了一个能够生成结构化答案的模型。但是,SFT 模型只是学会了"模仿"训练数据中的推理过程,并没有真正学会"思考"。强化学习可以让模型通过试错来优化推理策略,从而超越训练数据的质量。
11.4.1 从 PPO 到 GRPO
[[PPO到GRPO自己话总结]]
通俗易懂的来说
PPO的总体流程就是用policy model(训练的模型)去生成样本组,然后计算奖励V,用v去计算advantage,然后去更新policy和value
[[Agentic RL和RLHF区别是什么?]]
他主要有四个模型
1、policy model(待训练的模型)
2、reference model (被冻结的老模型)
3、reward model 打分模型
4、value model 估分基准模型
advantage=reward-value,如果是多步的(即中间有reward的,即用累计的reward-value)
然后GRPO是对PPO的一种简化方法,他不需要value model,使用组内相对奖励代替绝对奖励,取代了V
理论上只需要 Policy Model 和 Reference Model;
那他怎么算reward,如果有真值答案,那直接真值判分
也可以用llm as judge,看具体情况
PPO的问题就是太依赖老师的value能力,这个value很有可能不准
而GRPO一次生成多条样本,只进行相对比较,用均值(或者别的)作为PPO里面的value
然后再拿reward减去group_mean_reward
在强化学习领域,PPO(Proximal Policy Optimization)[1]是最经典的算法之一。PPO 通过限制策略更新的幅度,保证训练的稳定性。但是,PPO 在 LLM 训练中存在一些问题:需要训练 Value Model(价值模型),增加了训练复杂度和显存占用;需要同时维护四个模型(Policy Model、Reference Model、Value Model、Reward Model),工程实现复杂;训练不稳定,容易出现奖励崩塌或策略退化。
GRPO(Group Relative Policy Optimization)[2]是一种简化的 PPO 变体,专门为 LLM 设计。GRPO 的核心思想是:不需要 Value Model,使用组内相对奖励代替绝对奖励;简化训练流程,只需要 Policy Model 和 Reference Model;提高训练稳定性,减少奖励崩塌的风险。
![[Pasted image 20260125164157.png]]
![[Pasted image 20260125163234.png]]
https://mp.weixin.qq.com/s/1phqxsmsDCGm14p4kesKaA
GRPO 训练的前提是已经完成 SFT 训练,因为 GRPO 需要一个合理的初始策略。
11.4.3 GRPO 训练过程解析
(1)训练循环
GRPO 的训练循环包括以下步骤:
-
采样阶段:对于每个问题,使用当前策略生成多个答案(
num_generations个)。这些答案构成一个"组",用于计算相对奖励。 -
奖励计算:对每个生成的答案计算奖励 𝑟𝑖ri。奖励可以是准确率、长度惩罚、步骤奖励或它们的组合。
-
相对奖励:计算组内平均奖励 𝑟ˉ=1𝑁∑𝑖=1𝑁𝑟𝑖rˉ=N1∑i=1Nri,然后计算相对奖励 𝑟𝑖=𝑟𝑖−𝑟ˉri=ri−rˉ。这样做的好处是减少奖励方差,使训练更稳定。(也可以把部分系统误差减掉)
-
策略更新:使用相对奖励更新策略,同时添加 KL 散度惩罚,防止策略偏离参考模型太远。
-
重复:重复上述步骤,直到完成所有训练轮次。
(2)KL 散度惩罚
KL 散度惩罚是 GRPO 的关键组成部分,它防止策略偏离参考模型太远。KL 散度定义为:![[Pasted image 20260125172533.png]]
在实践中,我们计算每个 token 的 KL 散度,然后求和:
![[Pasted image 20260125172550.png]]
KL 散度越大,说明当前策略与参考模型差异越大。通过添加 KL 散度惩罚项 −𝛽⋅𝐷𝐾𝐿,我们限制策略更新的幅度,避免"遗忘"SFT 阶段学到的知识。
kl_coef (𝛽) 的选择很重要:
- 太小(0.01):策略可能偏离太远,导致输出格式混乱或质量下降
- 太大(0.5):策略更新受限,学习缓慢,难以超越 SFT 模型
- 建议(0.05-0.1):平衡探索和稳定性
(3)训练监控
在 GRPO 训练过程中,我们需要监控以下指标:
-
平均奖励(Average Reward):应该逐渐上升。如果奖励不上升,可能是学习率太小、KL 惩罚太大、奖励函数设计不合理。如果奖励先升后降,可能是过拟合或奖励崩塌。
-
KL 散度(KL Divergence):应该保持在合理范围内(0.01-0.1)。如果 KL 散度过大(>0.5),说明策略偏离太远,需要增大 kl_coef 或降低学习率。如果 KL 散度过小(<0.001),说明策略几乎没有更新,需要减小 kl_coef 或增大学习率。
-
准确率(Accuracy):应该逐渐提升。这是最直观的指标,反映模型的实际能力。
-
生成质量(Generation Quality):需要人工检查生成的答案,确保格式正确、推理清晰。
HelloAgents 集成了两种主流的训练监控工具:Weights & Biases(wandb)和 TensorBoard。
在 GRPO 训练中,可能会遇到一些问题。当奖励不上升时,可能是学习率太小或 KL 惩罚太大限制了策略更新,也可能是奖励函数设计不合理或 SFT 模型质量太差,此时可以增大学习率(从 1e-5 到 5e-5)、减小 kl_coef(从 0.1 到 0.05)、检查奖励函数或重新训练 SFT 模型。
当 KL 散度爆炸(超过 0.5 甚至 1.0)导致生成答案格式混乱时,通常是学习率太大或 KL 惩罚太小,或者奖励函数过于激进,可以降低学习率(从 5e-5 到 1e-5)、增大 kl_coef(从 0.05 到 0.1)、调整奖励函数或使用梯度裁剪。
11.5 模型评估与分析
训练完成后,我们需要全面评估模型的性能,不仅要看准确率这一个指标,还要深入分析模型的推理质量、错误模式、泛化能力等。本节将介绍如何系统地评估和分析 Agentic RL 模型。
(1)准确性指标
准确性指标衡量模型是否能够得出正确答案。
准确率(Accuracy):最基本的指标,答案完全正确的比例。计算公式为:Accuracy=正确答案数总问题数
![[Pasted image 20260125182930.png]]
优点是简单直观,易于理解和比较。缺点是无法区分"接近正确"和"完全错误",对于复杂任务可能过于粗糙。
Top-K 准确率:生成 K 个答案,只要有一个正确就算对。计算公式为:
![[Pasted image 20260125183525.png]]
数值误差(Numerical Error):对于数学问题,可以计算预测值与真实值的误差。计算公式为:
![[Pasted image 20260125183545.png]]
(2)效率指标
效率指标衡量模型生成答案的成本。
平均长度(Average Length):生成答案的平均 token 数。计算公式为:
![[Pasted image 20260125183846.png]]
(3)质量指标
质量指标衡量答案的可读性和可解释性。
格式正确率(Format Correctness):答案是否符合预期格式(如包含"Step 1", "Final Answer"等标记)。计算公式为:
![[Pasted image 20260125184357.png]]
格式正确是基本要求,格式混乱的答案即使结果正确也难以使用。
推理连贯性(Reasoning Coherence):推理步骤之间是否逻辑连贯。这个指标通常需要人工评估或使用专门的评估模型。
可解释性(Explainability):答案是否容易理解和验证。包含清晰步骤的答案比直接给出结果的答案更具可解释性。
![[Pasted image 20260125184610.png]]
11.5.3 错误分析
仅仅知道准确率是不够的,我们需要深入分析模型在哪些类型的问题上容易出错,从而指导后续改进。模型的错误可以分为四类:计算错误(推理步骤正确但计算出错,如"48/2=25",说明数值计算能力不足)、推理错误(推理逻辑错误导致解题思路不对,如先加后除而非先除后加,说明逻辑推理能力不足)、理解错误(没有正确理解问题,如问题问"总共"但只计算了一部分,说明语言理解能力不足)、格式错误(答案正确但格式不符合要求,如缺少"Final Answer:"标记,说明格式学习不足)。
“计算错误”: 0
, “推理错误”: 0,
“理解错误”: 0,
“格式错误”: 0,
![[Pasted image 20260125185714.png]]
11.6 完整训练流程实战
在前面的章节中,我们分别学习了数据准备、SFT 训练、GRPO 训练和模型评估。现在,让我们把这些知识整合起来,完成一个端到端的 Agentic RL 训练流
11.6.1 端到端训练流程
一个完整的 Agentic RL 训练流程包括以下阶段:数据准备、SFT 训练、SFT 评估、GRPO 训练、GRPO 评估、模型部署。
![[Pasted image 20260125190033.png]]
11.6.2 超参数调优
超参数调优是提升模型性能的关键。下面是一些常用的调优策略。
(1)网格搜索
网格搜索(Grid Search)是最简单的调优方法,遍历所有参数组合,选择最佳的一组。这个就是通过笛卡尔积,使得列出来的各种参数进行排列组合,把所有组合跑一次训练,看哪个效果好
网格搜索的优点是简单直接,能找到全局最优。缺点是计算成本高,参数多时不可行。
(2)随机搜索
随机搜索(Random Search)随机采样参数组合,比网格搜索更高效。
**对每个超参数,**
==从它的取值范围里独立随机采样。==
(3)贝叶斯优化
贝叶斯优化(Bayesian Optimization)使用概率模型指导搜索,更加智能。可以使用 Optuna 等库:
贝叶斯优化的优点是样本效率高,能快速找到好的参数。缺点是实现复杂,需要额外的库。
在哪里试一次,
能最可能让我学到新东西 / 超过当前最优?”
这一步靠的就是:
acquisition function(采集函数)
11.8 本章小结
在本章中,我们系统地学习了 Agentic RL 的理论和实践,从基础概念到完整的训练流程,从数据准备到模型部署。让我们回顾一下本章的主要内容。
(1)Agentic RL 的本质
Agentic RL 是将 LLM 作为可学习策略,嵌入到智能体的感知-决策-执行循环中,通过强化学习优化智能体在多步任务中的表现。它与传统的 PBRFT(Preference-Based Reinforcement Fine-Tuning)的核心区别在于:
- 任务性质:从单轮对话优化扩展到多步序贯决策
- 状态空间:从静态提示扩展到动态演化的环境状态
- 行动空间:从纯文本生成扩展到文本+工具+环境操作
- 奖励设计:从单步质量评估扩展到长期累积回报
- 优化目标:从短期响应质量扩展到长期任务成功
(2)六大核心能力
Agentic RL 旨在提升智能体的六大核心能力:
- 推理(Reasoning):多步逻辑推导,学习推理策略
- 工具使用(Tool Use):API/工具调用,学会何时用、如何用
- 记忆(Memory):长期信息保持,学习记忆管理
- 规划(Planning):行动序列规划,学会动态规划
- 自我改进(Self-Improvement):自我反思优化,从错误中学习
- 感知(Perception):多模态理解,视觉推理和工具使用
(3)训练流程
完整的 Agentic RL 训练流程包括:
- 预训练(Pretraining):在大规模文本上学习语言知识(通常使用现成的预训练模型)
- 监督微调(SFT):学习任务格式和基础推理能力
- 强化学习(RL):通过试错优化推理策略,超越训练数据质量
更多推荐

所有评论(0)