大模型对齐算法(五)

Agentic Entropy-Balanced Policy Optimization

这篇论文是:

《Agentic Entropy-Balanced Policy Optimization (AEPO)》
作者:Dong 等
会议:WWW 2026
论文地址:arXiv:2510.14545


🧠 一、研究背景与动机
1.1 背景:Agentic RL 的兴起
  • 大模型(LLM)在静态知识任务上表现很好,但在多轮、长程、工具调用任务中表现有限。
  • Agentic Reinforcement Learning(Agentic RL) 通过让模型与外部工具(如搜索引擎、代码解释器)交互,提升其推理与信息获取能力。
  • 当前主流方法依赖**熵(entropy)**来引导探索,尤其是在高不确定性(如工具调用)步骤。
1.2 问题:熵引导带来的副作用

尽管熵信号有助于探索,但过度依赖熵会导致两个关键问题:

问题名称 描述
High-Entropy Rollout Collapse 高熵步骤连续出现,导致采样资源过度集中在少数路径,降低探索多样性。
High-Entropy Token Gradient Clipping 高熵 token 的梯度在策略更新中被裁剪,导致模型无法从这些关键探索中学习。

🧪 二、AEPO 的核心思想

AEPO(Agentic Entropy-Balanced Policy Optimization)提出在两个阶段平衡熵

阶段 目标 方法
Rollout 阶段 避免过度分支,提升采样多样性 熵预监控 + 分支惩罚机制
Policy Update 阶段 保留高熵 token 的学习信号 停止梯度裁剪 + 熵感知优势估计

🔧 三、方法详解
3.1 动态熵平衡 Rollout 机制
✅ 熵预监控(Entropy Pre-Monitoring)
  • 在正式采样前,先运行一次完整轨迹,计算:
    • 问题熵(H_root)
    • 工具调用熵(H_tool)
  • 根据熵差动态分配全局采样数(m)与局部分支采样数(k - m)
✅ 分支惩罚(Consecutive Branch Penalty)
  • 若某条路径连续出现高熵步骤,则降低其后续分支概率。
  • 防止“熵高路径”独占采样资源。

3.2 熵平衡策略优化(Entropy-Balanced Policy Optimization)

✅ 停止梯度裁剪(Stop-Gradient Clipping)
  • 在传统 PPO/GRPO 中,高熵 token 的梯度常被裁剪。
  • AEPO 引入 stop-gradient 操作,使得:
    • 前向传播仍使用裁剪值(保证稳定性)
    • 反向传播保留高熵 token 的梯度(保证学习)
✅ 熵感知优势估计(Entropy-Aware Advantage)
  • 将 token 的熵作为不确定性信号,调整其优势值:
    • 高熵但正确的 token 获得更高奖励
    • 鼓励模型学习“有探索价值”的行为

📊 四、实验结果
4.1 数据集(14个)

涵盖三类任务:

类型 示例数据集
深度信息检索 GAIA、WebWalkerQA、Humanity’s Last Exam
知识推理 2Wiki、MuSiQue、Bamboogle
数学推理 GSM8K、MATH、AIME2024/2025

4.2 对比方法(7个 RL 算法)
类型 方法
经典 RL GRPO、Reinforce++
裁剪优化 RL DAPO、CISPO、GPPO
Agentic RL ARPO、GIGPO

4.3 主要结果
模型 数据集 Pass@1 提升
Qwen3-14B + AEPO GAIA 47.6%(SOTA)
Qwen3-14B + AEPO WebWalkerQA 43.0%
Qwen3-14B + AEPO Humanity’s Last Exam 11.2%

仅使用 1K 开源样本训练,超越多数大规模模型(如 GPT-4o、DeepSeek-R1)


🔍 五、进一步分析
分析维度 AEPO 表现
采样多样性 聚类中心更多(62 vs 54),路径分布更广
工具调用效率 工具调用次数减少 50%,性能反而更好
熵稳定性 熵曲线更平稳,避免熵崩溃

✅ 六、总结:AEPO 的贡献
编号 贡献
1 系统揭示 Agentic RL 中两大熵驱动问题
2 提出动态熵平衡 Rollout,避免资源过度集中
3 提出熵平衡策略优化,保留高熵 token 的学习能力
4 在 14 个数据集上验证 AEPO 的 SOTA 性能与稳定性

📌 七、一句话总结

AEPO 是第一个在 Rollout 和 Policy Update 双阶段中系统平衡熵的 Agentic RL 方法,显著提升了大模型在多轮工具调用任务中的探索能力与训练稳定性。

Agentic Reinforced Policy Optimization

这篇论文《Agentic Reinforced Policy Optimization (ARPO)》提出了一种新的强化学习算法,用于训练多轮、工具调用的智能体(Agentic RL),以提升大模型在复杂推理任务中的表现。以下是对论文的系统性总结:


🧠 一、研究背景与动机
  • RLVR(Reinforcement Learning with Verifiable Rewards) 在单轮推理任务中表现优异,但在多轮、工具交互场景中仍面临挑战。
  • 现有方法多为轨迹级(trajectory-level)RL,忽视了大模型在工具调用后token熵升高的现象,导致模型未能充分探索每一步的工具使用行为。
  • 因此,作者提出 ARPO,通过熵感知机制优势归因估计,更精细地引导模型学习每一步的工具使用策略。

🎯 二、核心贡献
编号 贡献内容
1 发现大模型在工具调用后 token 熵显著升高,揭示轨迹级 RL 忽视的关键不确定性区域。
2 提出 ARPO 算法,结合:① 熵感知的自适应 rollout 机制;② 优势归因估计(hard/soft)来区分共享与独立路径。
3 理论上证明 ARPO 是 广义策略梯度定理(GPG) 的一种实现,适用于 Transformer 策略。
4 在 13 个推理/搜索任务上验证 ARPO,仅用 一半的 tool-call 预算,性能优于主流轨迹级 RL 算法(如 GRPO、DAPO)。

🔧 三、方法结构
3.1 熵感知自适应 Rollout(Entropy-based Adaptive Rollout)
  • 初始阶段进行 N 条全局采样,记录初始熵。
  • 每次工具调用后,监控熵变化 ∆H。
  • 若 ∆H 超过阈值,则在该步进行 Z 条分支采样,探索高不确定性区域。
  • 实现 全局与局部采样动态平衡,避免资源浪费。
3.2 优势归因估计(Advantage Attribution Estimation)
  • Hard 模式:手动区分共享路径与独立路径,分别计算优势。
  • Soft 模式:通过 GRPO 的 importance sampling 自动区分共享/独立 token,更稳定。
  • 默认采用 Soft 模式,在训练中表现更平滑、奖励更高。

📊 四、实验结果
✅ 数学推理 + 知识推理(10 个任务)
模型 平均提升
Qwen2.5-7B ARPO 比 GRPO 提升 +1.8%
Llama3.1-8B ARPO 比 GRPO 提升 +4.2%
Qwen2.5-3B ARPO 比最强基线提升 +6.7%
✅ 深度搜索任务(GAIA、HLE、WebWalkerQA 等)
模型 GAIA HLE WebWalkerQA
Qwen3-14B + ARPO 43.7% 10.0% 36.0%
Qwen3-14B + GRPO 36.9% 7.9% 30.0%
  • 仅使用 1K 开源样本训练,超越 GPT-4o、DeepSeek-R1 等大规模模型。

🔍 五、关键分析
分析维度 结论
采样多样性 Pass@5 显著优于 GRPO,说明 ARPO 探索更充分
工具调用效率 在相同准确率下,ARPO 工具调用次数仅为 GRPO 的一半
熵权重敏感性 熵权重 β = 0.4 时最佳,过高会导致采样过度
浏览器能力影响 更强的浏览器模型(如 QwQ-32B)可进一步提升搜索性能

✅ 六、总结一句话

ARPO 通过“熵感知 + 优势归因”机制,在多轮工具调用任务中实现了更精细、更高效的探索,显著优于传统轨迹级 RL 方法,是 Agentic RL 领域的重要进展。

Arbitrary Entropy Policy Optimization_ Entropy Is Controllable in Reinforcement Finetuning

这篇论文《Arbitrary Entropy Policy Optimization: Entropy Is Controllable in Reinforcement Fine-tuning》(AEPO)聚焦于强化微调(RFT)中大语言模型熵崩溃(entropy collapse)的问题,提出了一种可任意控制熵水平的策略优化方法,显著提升了模型的探索能力与推理性能。


🎯 一、研究动机
  • GRPO(Group Relative Policy Optimization)是当前主流的强化微调方法,但存在严重的熵崩溃问题:
    • 熵单调下降 → 探索能力减弱
    • 策略过早收敛 → 性能受限
  • 现有方法(如熵正则化、熵优势)无法从根本上控制熵水平,且容易引入偏差或不稳定。

🧠 二、核心贡献
编号 内容
1 提出 AEPO,首次实现在训练过程中任意设定并稳定维持熵水平
2 揭示熵与性能之间的非单调关系:适度熵提升性能,过高熵反而有害
3 提供一种通用范式:可用任意目标分布(如高温分布)作为正则化器,引导策略优化

🔧 三、方法结构

AEPO 不直接使用熵正则项,而是通过以下三种机制间接控制熵

1. Policy Gradient as Regularization
  • REINFORCE 策略梯度替代熵奖励,避免熵项主导优化
  • 仅使用正样本(奖励为1)构建梯度,形成单向优化信号
2. Distribution as Regularization
  • 根据当前熵水平,动态调整采样分布的温度
    • 熵太低 → 用高温分布(T > 1)采样 → 增加探索
    • 熵太高 → 用低温分布(T < 1)采样 → 降低探索
3. REINFORCE as Regularization
  • 利用 RLVR 中奖励为二值的特点,过滤负样本
  • 保证熵控制信号不被负样本抵消

📊 四、实验结果
✅ 数学推理任务(7个基准)
方法 平均得分 相较GRPO提升
GRPO 57.96
Entropy-Reg 57.39 -0.57
Entropy-Adv 58.18 +0.22
AEPO (H=0.75) 61.36 +3.40
  • AEPO 在所有熵水平下均优于 GRPO
  • AIME24 上提升高达 +13.3 分(相对+36%)

🔍 五、关键发现
发现 说明
✅ 熵可控 通过调节目标熵 H,AEPO 可将熵稳定在任何预设水平
✅ 熵与性能非线性 存在最优熵区间(H ≈ 0.75),过高或过低都会损害性能
✅ 通用性强 AEPO 可推广为“用任意目标分布作为正则化器”的通用范式

🧪 六、消融实验
模块 是否可缺 结论
温度调整分布 不用温度控制 → 熵崩溃,性能下降至 56.93
REINFORCE 正样本过滤 不过滤负样本 → 熵控制失效,性能下降至 58.14

✅ 七、一句话总结

AEPO 首次实现了在强化微调中对熵的精确控制,不仅解决了 GRPO 的熵崩溃问题,还揭示了熵与推理性能之间的非线性关系,为探索与利用的平衡提供了理论依据和实用工具。

LPO:句子级别的对齐算法
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐