大模型对齐算法(五)

本文提出了一种新型强化学习算法AEPO（Agentic Entropy-Balanced Policy Optimization），旨在解决大模型在多轮工具调用任务中因过度依赖熵信号导致的两个关键问题：高熵轨迹崩溃和梯度裁剪失效。AEPO通过动态熵平衡机制（包括熵预监控和分支惩罚）和熵感知策略优化（停止梯度裁剪和优势估计），在14个推理任务上实现了SOTA性能，仅需1K训练样本就超越GPT-4o等

Jay Kay

689人浏览 · 2025-10-25 10:23:41

Jay Kay · 2025-10-25 10:23:41 发布

大模型对齐算法(五)

Agentic Entropy-Balanced Policy Optimization

这篇论文是：

《Agentic Entropy-Balanced Policy Optimization (AEPO)》
作者：Dong 等
会议：WWW 2026
论文地址：arXiv:2510.14545

🧠 一、研究背景与动机

1.1 背景：Agentic RL 的兴起

大模型（LLM）在静态知识任务上表现很好，但在多轮、长程、工具调用任务中表现有限。
Agentic Reinforcement Learning（Agentic RL） 通过让模型与外部工具（如搜索引擎、代码解释器）交互，提升其推理与信息获取能力。
当前主流方法依赖**熵（entropy）**来引导探索，尤其是在高不确定性（如工具调用）步骤。

1.2 问题：熵引导带来的副作用

尽管熵信号有助于探索，但过度依赖熵会导致两个关键问题：

问题名称	描述
High-Entropy Rollout Collapse	高熵步骤连续出现，导致采样资源过度集中在少数路径，降低探索多样性。
High-Entropy Token Gradient Clipping	高熵 token 的梯度在策略更新中被裁剪，导致模型无法从这些关键探索中学习。

🧪 二、AEPO 的核心思想

AEPO（Agentic Entropy-Balanced Policy Optimization）提出在两个阶段平衡熵：

阶段	目标	方法
Rollout 阶段	避免过度分支，提升采样多样性	熵预监控 + 分支惩罚机制
Policy Update 阶段	保留高熵 token 的学习信号	停止梯度裁剪 + 熵感知优势估计

🔧 三、方法详解

3.1 动态熵平衡 Rollout 机制

✅ 熵预监控（Entropy Pre-Monitoring）

在正式采样前，先运行一次完整轨迹，计算：
- 问题熵（H_root）
- 工具调用熵（H_tool）
根据熵差动态分配全局采样数（m）与局部分支采样数（k - m）

✅ 分支惩罚（Consecutive Branch Penalty）

若某条路径连续出现高熵步骤，则降低其后续分支概率。
防止“熵高路径”独占采样资源。

3.2 熵平衡策略优化（Entropy-Balanced Policy Optimization）

✅ 停止梯度裁剪（Stop-Gradient Clipping）

在传统 PPO/GRPO 中，高熵 token 的梯度常被裁剪。
AEPO 引入 stop-gradient 操作，使得：
- 前向传播仍使用裁剪值（保证稳定性）
- 反向传播保留高熵 token 的梯度（保证学习）

✅ 熵感知优势估计（Entropy-Aware Advantage）

将 token 的熵作为不确定性信号，调整其优势值：
- 高熵但正确的 token 获得更高奖励
- 鼓励模型学习“有探索价值”的行为

📊 四、实验结果

4.1 数据集（14个）

涵盖三类任务：

类型	示例数据集
深度信息检索	GAIA、WebWalkerQA、Humanity’s Last Exam
知识推理	2Wiki、MuSiQue、Bamboogle
数学推理	GSM8K、MATH、AIME2024/2025

4.2 对比方法（7个 RL 算法）

类型	方法
经典 RL	GRPO、Reinforce++
裁剪优化 RL	DAPO、CISPO、GPPO
Agentic RL	ARPO、GIGPO

4.3 主要结果

模型	数据集	Pass@1 提升
Qwen3-14B + AEPO	GAIA	47.6%（SOTA）
Qwen3-14B + AEPO	WebWalkerQA	43.0%
Qwen3-14B + AEPO	Humanity’s Last Exam	11.2%

仅使用 1K 开源样本训练，超越多数大规模模型（如 GPT-4o、DeepSeek-R1）

🔍 五、进一步分析

分析维度	AEPO 表现
采样多样性	聚类中心更多（62 vs 54），路径分布更广
工具调用效率	工具调用次数减少 50%，性能反而更好
熵稳定性	熵曲线更平稳，避免熵崩溃

✅ 六、总结：AEPO 的贡献

编号	贡献
1	系统揭示 Agentic RL 中两大熵驱动问题
2	提出动态熵平衡 Rollout，避免资源过度集中
3	提出熵平衡策略优化，保留高熵 token 的学习能力
4	在 14 个数据集上验证 AEPO 的 SOTA 性能与稳定性

📌 七、一句话总结

AEPO 是第一个在 Rollout 和 Policy Update 双阶段中系统平衡熵的 Agentic RL 方法，显著提升了大模型在多轮工具调用任务中的探索能力与训练稳定性。

Agentic Reinforced Policy Optimization

这篇论文《Agentic Reinforced Policy Optimization (ARPO)》提出了一种新的强化学习算法，用于训练多轮、工具调用的智能体（Agentic RL），以提升大模型在复杂推理任务中的表现。以下是对论文的系统性总结：

🧠 一、研究背景与动机

RLVR（Reinforcement Learning with Verifiable Rewards） 在单轮推理任务中表现优异，但在多轮、工具交互场景中仍面临挑战。
现有方法多为轨迹级（trajectory-level）RL，忽视了大模型在工具调用后token熵升高的现象，导致模型未能充分探索每一步的工具使用行为。
因此，作者提出 ARPO，通过熵感知机制和优势归因估计，更精细地引导模型学习每一步的工具使用策略。

🎯 二、核心贡献

编号	贡献内容
1	发现大模型在工具调用后 token 熵显著升高，揭示轨迹级 RL 忽视的关键不确定性区域。
2	提出 ARPO 算法，结合：① 熵感知的自适应 rollout 机制；② 优势归因估计（hard/soft）来区分共享与独立路径。
3	理论上证明 ARPO 是广义策略梯度定理（GPG）的一种实现，适用于 Transformer 策略。
4	在 13 个推理/搜索任务上验证 ARPO，仅用一半的 tool-call 预算，性能优于主流轨迹级 RL 算法（如 GRPO、DAPO）。

🔧 三、方法结构

3.1 熵感知自适应 Rollout（Entropy-based Adaptive Rollout）

初始阶段进行 N 条全局采样，记录初始熵。
每次工具调用后，监控熵变化 ∆H。
若 ∆H 超过阈值，则在该步进行 Z 条分支采样，探索高不确定性区域。
实现 全局与局部采样动态平衡，避免资源浪费。

3.2 优势归因估计（Advantage Attribution Estimation）

Hard 模式：手动区分共享路径与独立路径，分别计算优势。
Soft 模式：通过 GRPO 的 importance sampling 自动区分共享/独立 token，更稳定。
默认采用 Soft 模式，在训练中表现更平滑、奖励更高。

📊 四、实验结果

✅ 数学推理 + 知识推理（10 个任务）

模型	平均提升
Qwen2.5-7B	ARPO 比 GRPO 提升 +1.8%
Llama3.1-8B	ARPO 比 GRPO 提升 +4.2%
Qwen2.5-3B	ARPO 比最强基线提升 +6.7%

✅ 深度搜索任务（GAIA、HLE、WebWalkerQA 等）

模型	GAIA	HLE	WebWalkerQA
Qwen3-14B + ARPO	43.7%	10.0%	36.0%
Qwen3-14B + GRPO	36.9%	7.9%	30.0%

仅使用 1K 开源样本训练，超越 GPT-4o、DeepSeek-R1 等大规模模型。

🔍 五、关键分析

分析维度	结论
采样多样性	Pass@5 显著优于 GRPO，说明 ARPO 探索更充分
工具调用效率	在相同准确率下，ARPO 工具调用次数仅为 GRPO 的一半
熵权重敏感性	熵权重 β = 0.4 时最佳，过高会导致采样过度
浏览器能力影响	更强的浏览器模型（如 QwQ-32B）可进一步提升搜索性能

✅ 六、总结一句话

ARPO 通过“熵感知 + 优势归因”机制，在多轮工具调用任务中实现了更精细、更高效的探索，显著优于传统轨迹级 RL 方法，是 Agentic RL 领域的重要进展。

Arbitrary Entropy Policy Optimization_ Entropy Is Controllable in Reinforcement Finetuning

这篇论文《Arbitrary Entropy Policy Optimization: Entropy Is Controllable in Reinforcement Fine-tuning》（AEPO）聚焦于强化微调（RFT）中大语言模型熵崩溃（entropy collapse）的问题，提出了一种可任意控制熵水平的策略优化方法，显著提升了模型的探索能力与推理性能。

🎯 一、研究动机

GRPO（Group Relative Policy Optimization）是当前主流的强化微调方法，但存在严重的熵崩溃问题：
- 熵单调下降 → 探索能力减弱
- 策略过早收敛 → 性能受限
现有方法（如熵正则化、熵优势）无法从根本上控制熵水平，且容易引入偏差或不稳定。

🧠 二、核心贡献

编号	内容
1	提出 AEPO，首次实现在训练过程中任意设定并稳定维持熵水平
2	揭示熵与性能之间的非单调关系：适度熵提升性能，过高熵反而有害
3	提供一种通用范式：可用任意目标分布（如高温分布）作为正则化器，引导策略优化

🔧 三、方法结构

AEPO 不直接使用熵正则项，而是通过以下三种机制间接控制熵：

1. Policy Gradient as Regularization

用 REINFORCE 策略梯度替代熵奖励，避免熵项主导优化
仅使用正样本（奖励为1）构建梯度，形成单向优化信号

2. Distribution as Regularization

根据当前熵水平，动态调整采样分布的温度：
- 熵太低 → 用高温分布（T > 1）采样 → 增加探索
- 熵太高 → 用低温分布（T < 1）采样 → 降低探索

3. REINFORCE as Regularization

利用 RLVR 中奖励为二值的特点，过滤负样本
保证熵控制信号不被负样本抵消

📊 四、实验结果

✅ 数学推理任务（7个基准）

方法	平均得分	相较GRPO提升
GRPO	57.96	—
Entropy-Reg	57.39	-0.57
Entropy-Adv	58.18	+0.22
AEPO (H=0.75)	61.36	+3.40

AEPO 在所有熵水平下均优于 GRPO
AIME24 上提升高达 +13.3 分（相对+36%）

🔍 五、关键发现

发现	说明
✅ 熵可控	通过调节目标熵 H，AEPO 可将熵稳定在任何预设水平
✅ 熵与性能非线性	存在最优熵区间（H ≈ 0.75），过高或过低都会损害性能
✅ 通用性强	AEPO 可推广为“用任意目标分布作为正则化器”的通用范式

🧪 六、消融实验

模块	是否可缺	结论
温度调整分布	❌	不用温度控制 → 熵崩溃，性能下降至 56.93
REINFORCE 正样本过滤	❌	不过滤负样本 → 熵控制失效，性能下降至 58.14

✅ 七、一句话总结

AEPO 首次实现了在强化微调中对熵的精确控制，不仅解决了 GRPO 的熵崩溃问题，还揭示了熵与推理性能之间的非线性关系，为探索与利用的平衡提供了理论依据和实用工具。

LPO:句子级别的对齐算法

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【C++11】异常

程序的执行从throw的位置直接跳到匹配的catch位置，catch可能在同一个函数中，有可能在调用链的其他函数中。但是一般来说不是发生严重的错误，我们是不期望程序停止的，所以在main函数的最后我们一般会使用 catch(...)，它可以捕捉任意类型的异常，但是并不能知道具体的异常是什么。抛出异常对象后，会产生一个异常对象的临时对象，因为抛出的异常可能的局部对象。一般情况下抛出的对象类型要和ca

2048 AI社区

【c++】C++11（三）lambda表达式、function、bind

代码语言：javascriptAI代码解释。

2048 AI社区

【c++】异常与智能指针

C++标准库中的智能指针都在头文件<memory>里，只要包了这个头文件就能够使用接下来的几种智能指针。其中出了weak_ptr智能指针外，其他的都是应用了RAII的设计思路。拷贝之后，可以看到，ap1被置空了，它的管理的资源都转移到了ap2那里。代码语言：javascript。代码语言：javascript。代码语言：javascript。