【AI论文】通过持续预训练扩展智能体能力
大型语言模型(LLMs)已演变为具备智能体特性的系统,能够自主使用工具并进行多步推理以解决复杂问题。然而,基于通用基础模型的后训练方法在智能体任务中的表现始终不尽如人意,尤其是在开源实现中。我们找出了根本原因:缺乏强大的智能体基础模型,迫使模型在后训练阶段既要同时学习多样化的智能体行为,又要使其与专家示范保持一致,从而引发了根本性的优化冲突。
摘要:大型语言模型(LLMs)已演变为具备智能体特性的系统,能够自主使用工具并进行多步推理以解决复杂问题。然而,基于通用基础模型的后训练方法在智能体任务中的表现始终不尽如人意,尤其是在开源实现中。我们找出了根本原因:缺乏强大的智能体基础模型,迫使模型在后训练阶段既要同时学习多样化的智能体行为,又要使其与专家示范保持一致,从而引发了根本性的优化冲突。为此,我们率先提出将智能体持续预训练(Agentic Continual Pre-training,Agentic CPT)纳入深度研究智能体训练流程,以构建强大的智能体基础模型。基于这一方法,我们开发了一个名为AgentFounder的深度研究智能体模型。我们在10个基准测试中对AgentFounder-30B进行了评估,该模型在保持强大工具使用能力的同时取得了最先进的性能,特别是在BrowseComp-en上达到39.9%、在BrowseComp-zh上达到43.3%,以及在HLE上达到31.5%的Pass@1指标。Huggingface链接:Paper page,论文链接:2509.13310
研究背景和目的
研究背景:
随着大型语言模型(LLMs)的快速发展,其在各种明确任务中的表现日益突出,如事实问答、文档摘要和代码生成等。然而,当面临需要多步推理、动态工具使用和复杂环境交互的开放域任务时,现有语言模型的表现仍显不足。特别是在开放式的深度研究(OEDR)领域,这些任务要求模型能够自主浏览和整合大量信息,生成详细且具有深度的报告,而现有方法往往受限于静态研究流程和一次性生成范式,导致信息丢失、注意力分散和报告质量不高的问题。
研究目的:
本研究旨在解决现有OEDR方法中的关键问题,提出一种名为Agentic Continual Pre-training(Agentic CPT)的新型训练框架,以构建强大的深度研究代理模型AgentFounder。具体目标包括:
- 提升模型在动态环境中的对齐能力:使模型能够在复杂任务中保持与人类专家演示的行为一致性,包括多步推理、工具调用和适应性响应。
- 克服静态基础模型的限制:通过Agentic CPT提供预对齐的Agentic基础模型,支持有效的下游微调,避免同时学习能力和对齐性时产生的优化冲突。
- 提高报告生成的全面性和可靠性:通过系统且可扩展的训练数据合成方法和渐进式训练策略,使模型能够生成结构良好、内容全面且基于可靠来源的报告。
研究方法
Agentic Continual Pre-training框架:
本研究提出了Agentic CPT框架,该框架包含两个核心阶段:数据收集和预训练。在数据收集阶段,强调种子数据源的广泛性和多样性,确保训练数据涵盖各种类型的Agentic行为。在预训练阶段,通过First-order Action Synthesis(FAS)和Higher-order Action Synthesis(HAS)两种方法生成大规模的训练数据,并采用渐进式两阶段训练策略。
- First-order Action Synthesis(FAS):
- 实体锚定的开放世界知识记忆:将各种来源的文本转换为开放世界记忆,以实体为索引键映射到相关声明。
- 多风格问题合成:基于实体锚定的知识记忆,生成涵盖事实检索、数值计算、多跳推理和综合任务等多样化问题。
- 规划行动合成:通过分析复杂问题的初始分解,生成合理的规划和下一步工具调用数据。
- 逻辑推理行动合成:生成逐步推理过程,最终得出答案的逻辑推理链数据。
- Higher-order Action Synthesis(HAS):
- 轨迹重塑:将轨迹视为多步决策过程,通过扩展每个步骤的潜在探索路径,生成多样化的行为模式。
- 合成多步决策文本数据:将重塑后的轨迹与新生成的探索路径合并,形成多步决策文本数据,增强模型的探索和决策能力。
- 渐进式两阶段训练策略:
- 第一阶段:主要利用FAS数据和短HAS数据,在32K上下文窗口内进行训练。
- 第二阶段:专注于高质量的HAS数据,扩展上下文长度至128K,进一步提升模型的复杂行为理解和长距离规划能力。
实验设计:
实验在10个基准测试上进行,包括通用网页搜索基准(BrowseComp-en、BrowseComp-zh、GAIA、Xbench-DeepSearch、WebWalkerQA)和场景定向网页搜索基准(DeepResearch Bench、SEAL-0、Frames、HLE、Academic Browse)。通过比较AgentFounder与现有SOTA模型在不同基准上的表现,验证Agentic CPT框架的有效性。
研究结果
性能对比:
AgentFounder-30B在多个基准测试上取得了显著优于现有开源模型和部分商业模型的成绩。具体结果如下:
- 通用网页搜索基准:在BrowseComp-en上达到39.9%,在BrowseComp-zh上达到43.3%,在GAIA上达到72.8%,在Xbench-DeepSearch上达到73.0%,在WebWalkerQA上达到71.9%。
- 场景定向网页搜索基准:在HLE上达到31.5%,在DeepResearch Bench上RACE Overall得分达到47.9%,在Frames上表现优异,在SEAL-0上展现出强鲁棒性,在Academic Browse上达到75.3%。
训练策略有效性:
- 两阶段训练策略:相比单阶段训练,两阶段训练在Pass@1和Pass@3指标上分别提升了3.3%和3.7%,证明了其有效性。
- 数据类型贡献:FAS数据和HAS数据均对模型性能有显著贡献,FAS数据在Pass@3指标上提升尤为明显,HAS数据则提供了互补效益。
模型规模与数据量的影响:
- 模型规模:随着模型参数的增加,Agentic性能显著提升,AgentFounder-30B在多个基准上超过了更大规模的基线模型。
- 数据量:训练数据量的增加带来了持续的性能提升,遵循对数比例定律,表明Agentic CPT具有良好的扩展性。
研究局限
尽管Agentic CPT框架在提升深度研究代理模型性能方面取得了显著成果,但仍存在一些局限性:
- 数据合成的质量与多样性:尽管FAS和HAS方法能够生成大规模的训练数据,但数据的质量和多样性仍受限于种子数据源和合成策略的设计。未来需要探索更高效、更自然的数据合成方法。
- 复杂任务的处理能力:对于极其复杂或高度专业化的任务,AgentFounder可能仍需要进一步优化其规划和推理策略,以更准确地捕捉和整合相关信息。
- 实时性与动态环境适应:当前框架主要基于静态数据集进行训练和评估,对于需要实时更新或适应动态环境的任务(如新闻事件追踪、股市动态分析等),其性能可能受限。
未来研究方向
针对上述局限,未来的研究可以从以下几个方面展开:
- 优化数据合成方法:探索更高效、更自然的数据合成策略,提高合成数据的质量和多样性,进一步丰富模型的训练数据集。
- 增强复杂任务处理能力:研究更先进的规划和推理策略,使模型能够更好地处理极其复杂或高度专业化的任务,提高信息捕捉和整合的准确性。
- 集成实时信息源与动态环境适应:将实时信息源(如新闻API、社交媒体等)集成到框架中,支持需要实时更新的查询,并研究模型在动态环境中的适应性和鲁棒性。
- 多模态信息处理:考虑将图像、视频等多模态信息纳入研究范围,进一步丰富报告的内容和形式,满足更广泛的应用需求。
- 用户交互与反馈机制:引入用户交互和反馈机制,使模型能够根据用户的实时反馈调整其研究策略和报告内容,提高用户满意度和报告质量。
更多推荐
所有评论(0)