论文提出了一个端到端的agentic信息检索智能体的范式,能够适配大部分开源模型。

一、总览

包括四个阶段:(1)浏览数据构建,(2)轨迹采样。(3)用于有效冷启动的监督微调,以及(4)用于增强泛化的强化学习。

二、数据构建

1.QA对构建

构建了crawlQA 和 e2hQA。
crawlQA是从网页爬取的,从根站点出发,递归访问子页面,最终使用GPT-4o合成问答对。
e2hQA从一个简单问题的一个实体出发,逐步将这个实体转换为一个子问题,通过这样逐步深入,控制搜索步骤。
在这里插入图片描述

2.智能体轨迹拒绝采样

基于react范式。这里只有三个动作(搜索、浏览,回答)
在这里插入图片描述
分别使用gpt-4o收集短cot,qwq-plus收集长cot。
使用三阶段的轨迹过滤框架进行拒绝采样
在这里插入图片描述

三、后训练

在这里插入图片描述

1.agent监督微调

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.agent的rl

采用DAPO算法
在这里插入图片描述

奖励函数设计方面,设计了格式和结果奖励,都是0/1。因为sft在格式上基本OK,所以占比是1:9。

四、结论和分析

高质量的轨迹数据对于智能体的有效 SFT 至关重要;
针对冷启动的 SFT 至关重要,因为智能体任务要求具备强大的多步多工具指令跟随能力。
强推理模型所使用的思考模式知识难以转移到小型指令
模型上。
强化学习(RL)能够实现更长的推理过程,并支持更复杂的 Agentic 动作。
Web 智能体在一个动态、不断演化的环境中执行任务,这种环境本质上难以稳定。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐