在这里插入图片描述

📖标题:Scaling Agents via Continual Pre-training
🌐来源:arXiv, 2509.13310

🌟摘要

大型语言模型 (LLM) 已经演变为能够自主工具使用和多步推理的复杂问题解决的代理系统。然而,基于通用基础模型的训练后方法在代理任务中始终表现不佳,尤其是在开源实现中。我们确定了根本原因:缺乏稳健的代理基础模型迫使模型在训练后同时学习不同的代理行为,同时将它们与专家演示对齐,从而创建基本的优化张力。为此,我们是第一个提出将代理持续预训练(代理 CPT)纳入深度研究代理训练管道中以构建强大的代理基础模型的人。基于这种方法,我们开发了一个名为 AgentFounder 的深度研究代理模型。我们在 10 个基准上评估我们的 AgentFounder-30B,并实现了最先进的性能,同时保留了强大的工具使用能力,尤其是在 BrowseComp-en 上为 39.9%,BrowseComp-zh 为 43.3%,HLE 上的 Pass@1 为 31.5%。项目在https://github.com/Alibaba-NLP/DeepResearch

🛎️文章简介

🔸研究问题:如何通过持续预训练来提高智能体的能力和对齐效果?
🔸主要贡献:论文提出了一种名为“Agentic Continual Pre-training (Agentic CPT)”的中间扩展层,旨在为智能体行为提供预先对齐的基础模型。

📝重点思路

🔸引入了Agentic CPT,作为智能体对齐训练流程的重定义,通过广泛的数据来源和多样化的行为类型来构建预先对齐的智能体基础模型。
🔸提出一阶行动合成(First-order Action Synthesis, FAS)将知识源组织为QA对后生成下一步行动,高阶行动合成(Higher-order Action Synthesis, HAS)拓展探索路径形成多步决策,最终生成多样化的推理-行动数据,以丰富行动空间探索。
🔸通过知识到问题转换的方式规模化训练上下文,以确保在多个领域内适应智能体能力。
🔸采用两阶段训练策略,第一阶段集中于短上下文窗口内的数据,第二阶段利用扩展的上下文长度进行高质量数据的训练。

🔎分析总结

🔸实验结果显示,AgentFounder-30B在多个基准测试中表现优于现有的最先进模型,表明Agentic CPT的有效性。
🔸不同的数据类型和训练阶段均显著提高了智能体的性能,尤其在短期训练数据配置中表现突出。
🔸发现模型规模与智能体性能之间存在显著正相关,说明较大的模型能够更有效地处理复杂的智能体行为。
🔸系统性的合成数据方法不仅提升了样本效率,还避免了对特定轨迹模式的过拟合,增强了智能体的决策能力。

💡个人观点

论文提出了一种新的智能体训练框架,有效地扩展智能体的能力,同时兼顾了多样性和对齐性。

🧩附录

在这里插入图片描述
在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐