大模型对齐算法(五)
Agentic Entropy-Balanced Policy Optimization
这篇论文是:
《Agentic Entropy-Balanced Policy Optimization (AEPO)》
作者:Dong 等
会议:WWW 2026
论文地址:arXiv:2510.14545
🧠 一、研究背景与动机
1.1 背景:Agentic RL 的兴起
- 大模型(LLM)在静态知识任务上表现很好,但在多轮、长程、工具调用任务中表现有限。
- Agentic Reinforcement Learning(Agentic RL) 通过让模型与外部工具(如搜索引擎、代码解释器)交互,提升其推理与信息获取能力。
- 当前主流方法依赖**熵(entropy)**来引导探索,尤其是在高不确定性(如工具调用)步骤。
1.2 问题:熵引导带来的副作用
尽管熵信号有助于探索,但过度依赖熵会导致两个关键问题:
| 问题名称 |
描述 |
| High-Entropy Rollout Collapse |
高熵步骤连续出现,导致采样资源过度集中在少数路径,降低探索多样性。 |
| High-Entropy Token Gradient Clipping |
高熵 token 的梯度在策略更新中被裁剪,导致模型无法从这些关键探索中学习。 |
🧪 二、AEPO 的核心思想
AEPO(Agentic Entropy-Balanced Policy Optimization)提出在两个阶段平衡熵:
| 阶段 |
目标 |
方法 |
| Rollout 阶段 |
避免过度分支,提升采样多样性 |
熵预监控 + 分支惩罚机制 |
| Policy Update 阶段 |
保留高熵 token 的学习信号 |
停止梯度裁剪 + 熵感知优势估计 |
🔧 三、方法详解
3.1 动态熵平衡 Rollout 机制
✅ 熵预监控(Entropy Pre-Monitoring)
- 在正式采样前,先运行一次完整轨迹,计算:
- 问题熵(H_root)
- 工具调用熵(H_tool)
- 根据熵差动态分配全局采样数(m)与局部分支采样数(k - m)
✅ 分支惩罚(Consecutive Branch Penalty)
- 若某条路径连续出现高熵步骤,则降低其后续分支概率。
- 防止“熵高路径”独占采样资源。
3.2 熵平衡策略优化(Entropy-Balanced Policy Optimization)
✅ 停止梯度裁剪(Stop-Gradient Clipping)
- 在传统 PPO/GRPO 中,高熵 token 的梯度常被裁剪。
- AEPO 引入 stop-gradient 操作,使得:
- 前向传播仍使用裁剪值(保证稳定性)
- 反向传播保留高熵 token 的梯度(保证学习)
✅ 熵感知优势估计(Entropy-Aware Advantage)
- 将 token 的熵作为不确定性信号,调整其优势值:
- 高熵但正确的 token 获得更高奖励
- 鼓励模型学习“有探索价值”的行为
📊 四、实验结果
4.1 数据集(14个)
涵盖三类任务:
| 类型 |
示例数据集 |
| 深度信息检索 |
GAIA、WebWalkerQA、Humanity’s Last Exam |
| 知识推理 |
2Wiki、MuSiQue、Bamboogle |
| 数学推理 |
GSM8K、MATH、AIME2024/2025 |
4.2 对比方法(7个 RL 算法)
| 类型 |
方法 |
| 经典 RL |
GRPO、Reinforce++ |
| 裁剪优化 RL |
DAPO、CISPO、GPPO |
| Agentic RL |
ARPO、GIGPO |
4.3 主要结果
| 模型 |
数据集 |
Pass@1 提升 |
| Qwen3-14B + AEPO |
GAIA |
47.6%(SOTA) |
| Qwen3-14B + AEPO |
WebWalkerQA |
43.0% |
| Qwen3-14B + AEPO |
Humanity’s Last Exam |
11.2% |
仅使用 1K 开源样本训练,超越多数大规模模型(如 GPT-4o、DeepSeek-R1)
🔍 五、进一步分析
| 分析维度 |
AEPO 表现 |
| 采样多样性 |
聚类中心更多(62 vs 54),路径分布更广 |
| 工具调用效率 |
工具调用次数减少 50%,性能反而更好 |
| 熵稳定性 |
熵曲线更平稳,避免熵崩溃 |
✅ 六、总结:AEPO 的贡献
| 编号 |
贡献 |
| 1 |
系统揭示 Agentic RL 中两大熵驱动问题 |
| 2 |
提出动态熵平衡 Rollout,避免资源过度集中 |
| 3 |
提出熵平衡策略优化,保留高熵 token 的学习能力 |
| 4 |
在 14 个数据集上验证 AEPO 的 SOTA 性能与稳定性 |
📌 七、一句话总结
AEPO 是第一个在 Rollout 和 Policy Update 双阶段中系统平衡熵的 Agentic RL 方法,显著提升了大模型在多轮工具调用任务中的探索能力与训练稳定性。
Agentic Reinforced Policy Optimization
这篇论文《Agentic Reinforced Policy Optimization (ARPO)》提出了一种新的强化学习算法,用于训练多轮、工具调用的智能体(Agentic RL),以提升大模型在复杂推理任务中的表现。以下是对论文的系统性总结:
🧠 一、研究背景与动机
- RLVR(Reinforcement Learning with Verifiable Rewards) 在单轮推理任务中表现优异,但在多轮、工具交互场景中仍面临挑战。
- 现有方法多为轨迹级(trajectory-level)RL,忽视了大模型在工具调用后token熵升高的现象,导致模型未能充分探索每一步的工具使用行为。
- 因此,作者提出 ARPO,通过熵感知机制和优势归因估计,更精细地引导模型学习每一步的工具使用策略。
🎯 二、核心贡献
| 编号 |
贡献内容 |
| 1 |
发现大模型在工具调用后 token 熵显著升高,揭示轨迹级 RL 忽视的关键不确定性区域。 |
| 2 |
提出 ARPO 算法,结合:① 熵感知的自适应 rollout 机制;② 优势归因估计(hard/soft)来区分共享与独立路径。 |
| 3 |
理论上证明 ARPO 是 广义策略梯度定理(GPG) 的一种实现,适用于 Transformer 策略。 |
| 4 |
在 13 个推理/搜索任务上验证 ARPO,仅用 一半的 tool-call 预算,性能优于主流轨迹级 RL 算法(如 GRPO、DAPO)。 |
🔧 三、方法结构
3.1 熵感知自适应 Rollout(Entropy-based Adaptive Rollout)
- 初始阶段进行 N 条全局采样,记录初始熵。
- 每次工具调用后,监控熵变化 ∆H。
- 若 ∆H 超过阈值,则在该步进行 Z 条分支采样,探索高不确定性区域。
- 实现 全局与局部采样动态平衡,避免资源浪费。
3.2 优势归因估计(Advantage Attribution Estimation)
- Hard 模式:手动区分共享路径与独立路径,分别计算优势。
- Soft 模式:通过 GRPO 的 importance sampling 自动区分共享/独立 token,更稳定。
- 默认采用 Soft 模式,在训练中表现更平滑、奖励更高。
📊 四、实验结果
✅ 数学推理 + 知识推理(10 个任务)
| 模型 |
平均提升 |
| Qwen2.5-7B |
ARPO 比 GRPO 提升 +1.8% |
| Llama3.1-8B |
ARPO 比 GRPO 提升 +4.2% |
| Qwen2.5-3B |
ARPO 比最强基线提升 +6.7% |
✅ 深度搜索任务(GAIA、HLE、WebWalkerQA 等)
| 模型 |
GAIA |
HLE |
WebWalkerQA |
| Qwen3-14B + ARPO |
43.7% |
10.0% |
36.0% |
| Qwen3-14B + GRPO |
36.9% |
7.9% |
30.0% |
- 仅使用 1K 开源样本训练,超越 GPT-4o、DeepSeek-R1 等大规模模型。
🔍 五、关键分析
| 分析维度 |
结论 |
| 采样多样性 |
Pass@5 显著优于 GRPO,说明 ARPO 探索更充分 |
| 工具调用效率 |
在相同准确率下,ARPO 工具调用次数仅为 GRPO 的一半 |
| 熵权重敏感性 |
熵权重 β = 0.4 时最佳,过高会导致采样过度 |
| 浏览器能力影响 |
更强的浏览器模型(如 QwQ-32B)可进一步提升搜索性能 |
✅ 六、总结一句话
ARPO 通过“熵感知 + 优势归因”机制,在多轮工具调用任务中实现了更精细、更高效的探索,显著优于传统轨迹级 RL 方法,是 Agentic RL 领域的重要进展。
Arbitrary Entropy Policy Optimization_ Entropy Is Controllable in Reinforcement Finetuning
这篇论文《Arbitrary Entropy Policy Optimization: Entropy Is Controllable in Reinforcement Fine-tuning》(AEPO)聚焦于强化微调(RFT)中大语言模型熵崩溃(entropy collapse)的问题,提出了一种可任意控制熵水平的策略优化方法,显著提升了模型的探索能力与推理性能。
🎯 一、研究动机
- GRPO(Group Relative Policy Optimization)是当前主流的强化微调方法,但存在严重的熵崩溃问题:
- 熵单调下降 → 探索能力减弱
- 策略过早收敛 → 性能受限
- 现有方法(如熵正则化、熵优势)无法从根本上控制熵水平,且容易引入偏差或不稳定。
🧠 二、核心贡献
| 编号 |
内容 |
| 1 |
提出 AEPO,首次实现在训练过程中任意设定并稳定维持熵水平 |
| 2 |
揭示熵与性能之间的非单调关系:适度熵提升性能,过高熵反而有害 |
| 3 |
提供一种通用范式:可用任意目标分布(如高温分布)作为正则化器,引导策略优化 |
🔧 三、方法结构
AEPO 不直接使用熵正则项,而是通过以下三种机制间接控制熵:
1. Policy Gradient as Regularization
- 用 REINFORCE 策略梯度替代熵奖励,避免熵项主导优化
- 仅使用正样本(奖励为1)构建梯度,形成单向优化信号
2. Distribution as Regularization
- 根据当前熵水平,动态调整采样分布的温度:
- 熵太低 → 用高温分布(T > 1)采样 → 增加探索
- 熵太高 → 用低温分布(T < 1)采样 → 降低探索
3. REINFORCE as Regularization
- 利用 RLVR 中奖励为二值的特点,过滤负样本
- 保证熵控制信号不被负样本抵消
📊 四、实验结果
✅ 数学推理任务(7个基准)
| 方法 |
平均得分 |
相较GRPO提升 |
| GRPO |
57.96 |
— |
| Entropy-Reg |
57.39 |
-0.57 |
| Entropy-Adv |
58.18 |
+0.22 |
| AEPO (H=0.75) |
61.36 |
+3.40 |
- AEPO 在所有熵水平下均优于 GRPO
- AIME24 上提升高达 +13.3 分(相对+36%)
🔍 五、关键发现
| 发现 |
说明 |
| ✅ 熵可控 |
通过调节目标熵 H,AEPO 可将熵稳定在任何预设水平 |
| ✅ 熵与性能非线性 |
存在最优熵区间(H ≈ 0.75),过高或过低都会损害性能 |
| ✅ 通用性强 |
AEPO 可推广为“用任意目标分布作为正则化器”的通用范式 |
🧪 六、消融实验
| 模块 |
是否可缺 |
结论 |
| 温度调整分布 |
❌ |
不用温度控制 → 熵崩溃,性能下降至 56.93 |
| REINFORCE 正样本过滤 |
❌ |
不过滤负样本 → 熵控制失效,性能下降至 58.14 |
✅ 七、一句话总结
AEPO 首次实现了在强化微调中对熵的精确控制,不仅解决了 GRPO 的熵崩溃问题,还揭示了熵与推理性能之间的非线性关系,为探索与利用的平衡提供了理论依据和实用工具。
LPO:句子级别的对齐算法
所有评论(0)