agent rl过程

本文研究了智能体强化学习（Agentic RL）在文本转有声书任务中的应用。实验采用微软开源的Agent Lightning框架，基于Qwen-1.5b模型进行多轮交互式训练。通过GLM-4.7作为奖励模型，对20条《天龙八部》文本片段进行格式、内容、情感等多维度评估。使用GRPO算法训练后，验证集最佳成绩达到0.552，较基线提升341%。结果表明，Agentic RL能有效提升文本转语音任务的

亚伯拉罕·黄肯

661人浏览 · 2026-02-25 18:32:28

亚伯拉罕·黄肯 · 2026-02-25 18:32:28 发布

一.传统RL vs Agentic rl

传统的大语言模型强化学习（如RLHF）采用单轮交互范式，其优化目标为单次生成响应的质量。在这一框架下，模型接收用户输入后直接生成完整输出，并基于该输出获得奖励信号进行策略更新。此类方法已在对话系统的人类偏好对齐中取得显著成效。
然而，智能体任务场景对模型能力提出了更高要求。智能体强化学习（Agentic Reinforcement Learning）采用多轮交互范式，模型需要与外部环境进行持续交互：生成动作（如工具调用指令）、接收环境反馈（如API返回结果）、并基于反馈进行后续决策。这一过程形成完整的交互轨迹（trajectory），优化目标从单步输出质量转变为轨迹层面的累计收益最大化。

传统RL：`Input → [Model] → Output → Reward`

单轮交互：一个 prompt 进去，一个 response 出来
优化目标：让单次输出的质量最高
典型应用：RLHF（如 ChatGPT 的对齐训练）、单轮问答优化

Agentic rl ：`Input → [Model] → Action₁ → Environment → Observation₁ → [Model] → Action₂ → ... → Final Output → Reward`

多轮交互：模型需要与环境多次交互（调用工具、获取反馈、迭代决策）-
优化目标：让整个 trajectory（轨迹）的累计收益最高
关键特点：
中间步骤有工具调用（如搜索、代码执行、API 调用）
需要学会何时调用什么工具以及如何解读工具返回
奖励可以是稀疏的（只在最后给）或密集的（每步都有）对应的模型更新也可以是有选择性的，具体看业务需求而定

有声书Agentic RL过程

本项目基于 Agent Lightning 框架（微软开源）进行 LLM Agent 强化学习训练。简单来说此框架就是负责Tracer（记录轨迹）+ Store（存储数据）+ Trainer（协调训练），简化了多节点 Agent 的 RL 训练接入过程。

上层封装：使用 @agl.rollout 装饰器定义 Agent 逻辑，通过 agl.emit_reward() 发射奖励信号
底层引擎：Agent Lightning 内置的 agl.VERL 算法调用 veRL 框架进行 GRPO 训练
训练配置：双卡 FSDP 分布式训练，vLLM 推理引擎，两张a30
Reward Model：智谱 AI GLM-4.7 作为 LLM-as-Judge

数据制作

数据来源：网络上找的天龙八部txt随机选取片段。一共二十条数据。长度控制大概在100-200之间，防止输出的token太长，显存不支持。
在这里插入图片描述
groud truth：经过调研对比，最终决定使用Claude ops进行生成。
格式转换：转换为verl框架训练的数据格式parquet，20条数据4：1分tran和val

训练节点

此处只定义了一个简单的带rewrite的流程来进行训练，主要还是为了将流程打通。create和rewrite用的都是Qwen-1.5b的模型，也就是说这次训练此模型会学会这两个“角色”，实际业务中可以按需设置。在这里插入图片描述

Reward Model

经过比对，最后采用了GLM4.7作为打分模型，打分的规则如下：

## 评分维度（各占权重）：
1. **格式正确性 (20%)**
   - JSON格式是否有效
   - 是否包含所有必需字段：speaker, content, tone, intensity, delay
   
2. **内容完整性 (30%)**
   - 是否完整覆盖了原文所有重要信息
   - 是否有遗漏或多余的内容
   
3. **角色识别准确性 (20%)**
   - speaker是否正确区分了"旁白"和角色对话
   - 角色名称是否与原文一致
   
4. **情感标注合理性 (15%)**
   - tone是否准确反映了对话/描述的情感
   - intensity是否与内容强度匹配
   
5. **分段合理性 (15%)**
   - 段落划分是否自然
   - delay设置是否合理

同时还会根据对应的groud truth作为打分标准。
在这里插入图片描述

开始训练

：本实验采用 GRPO (Group Relative Policy Optimization) 算法进行策略优化。与传统 PPO 不同，GRPO 通过组内相对优势估计来计算策略梯度，无需额外的价值网络（Critic）。具体而言，每个训练样本生成 4 条独立轨迹（rollout_n=4），通过比较同组轨迹的奖励信号计算相对优势，并使用标准差进行归一化（norm_adv_by_std_in_grpo=True）。策略更新时禁用 KL 散度约束，仅依赖裁剪机制（clip_ratio∈[0.2, 0.3]）控制更新幅度。
在这里插入图片描述

训练

在这里插入图片描述

训练过程中，训练集reward持续上升并在1600步达到0.685。
然而，验证集reward在约1350步达到峰值0.552后开始下降，
表明模型在后期可能出现过拟合。

因此，我们采用验证集最优的checkpoint（step 1400）作为最终模型，
相比基线模型（reward ≈ 0.125），性能提升约 341%。
与此同时针对 step= 1000，1400，1600的结果在同验证集上进行评估比对
在这里插入图片描述
独立样本

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

AI Coding 全栈实战

它的目标不是展示"我有多厉害"，而是告诉你：在 2026 年的今天，任何一个有想法、会打字的人，都可以借助 AI 编程工具，从零做出一个完整的全栈网站。当然，在此过程中，你仍然可能遇到不懂的名字或概念，此时AI不仅可以是你的工具，还可以是你的老师，保持求知欲，可以学会任何事情，并且比以往任何一个时候都要更快、更全。如果你只想快速上线一个东西，用 Vercel + Supabase 可能十分钟就搞定

2048 AI社区

【低空经济】低空AI无人机设计方案

2048 AI社区

Agent 的角色设计：Persona 如何影响结果

你有没有过这样的经历：用GPT做客服Agent，明明写了“你是专业客服”，结果它动不动就给用户乱承诺优惠，甚至和用户吵架？做内容生成Agent，明明要求写母婴账号文案，结果输出的内容全是理工男的硬广风格？做学习搭子Agent，本来要做温柔耐心的陪学伙伴，结果它动不动就怼人？这些问题90%的根源都出在Persona设计上。本文的核心目的就是把Persona的底层逻辑讲透：它是什么、怎么生效、如何影响