近年来,大型语言模型(LLM)智能体已成为AI领域的热点,它们能自主使用工具、进行多步推理,完成复杂任务,如深度研究、代码生成、多轮对话等。然而,现有的LLM智能体面临两大困境:一是依赖静态、手工设计的工作流程,缺乏灵活性,无法适应新环境;二是通过微调LLM参数来实现适应,虽然灵活但成本极高,且容易发生“灾难性遗忘”,不适合持续学习。

这就引出了一个核心问题:能否让LLM智能体像人类一样,通过记忆和经验持续学习,而不必每次都重新训练或微调模型?

图片

  • 论文:AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs
  • 链接:https://arxiv.org/pdf/2508.16153

本论文正是针对这一挑战提出的创新解决方案。作者受人类记忆机制启发,提出了一个基于记忆的在线强化学习框架,智能体通过不断积累成功和失败的经验(存入“案例库”),在遇到新任务时快速检索相似案例指导决策,从而实现持续进步——整个过程完全不更新LLM的权重

AgentFly在多个权威基准测试中表现卓越,如在GAIA验证集上达到87.88%的准确率(排名第一),在DeepResearcher上显著超越已有训练型方法,证明了其高效性和泛化能力。这不仅为构建低成本、高自适应的通用智能体提供了新范式,也推动了AI向更接近人类学习方式的方向发展。

图片

下面,我们将深入解读AgentFly的核心方法、实现细节、实验结果及其深远意义。

一、核心方法:基于记忆的MDP与案例推理(CBR)

形式化框架:记忆增强的MDP(M-MDP)

传统强化学习使用马尔可夫决策过程(MDP)建模智能体与环境的交互,包括状态、动作、转移概率、奖励函数等。AgentFly在此基础上引入外部记忆空间,形成记忆增强的MDP(Memory-augmented MDP, M-MDP),其定义为:

在这里插入图片描述

CBR智能体的决策机制

AgentFly的决策过程模仿人类的案例推理(Case-Based Reasoning, CBR)过程,分为四步:

在这里插入图片描述

优化目标:最大熵强化学习与软Q学习

在这里插入图片描述

两种记忆机制实现

AgentFly提供了两种实现检索策略 的方式:

  • 非参数化记忆:直接使用向量检索(如余弦相似度)从案例库中找最相似的案例。简单高效,但缺乏适应性。
  • 参数化记忆:训练一个神经网络Q函数 来评估案例价值,并通过梯度下降更新(见公式15和26)。更灵活,能学习到任务之间的潜在规律。

二、实现:AgentFly深度研究智能体

在这里插入图片描述

图片

AgentFly被实例化为一个规划器-执行器(Planner-Executor)架构,如上图所示,两者交替工作,共同完成任务。

双阶段协作流程

  • 规划器(Planner):由强大LLM(如GPT-4.1)驱动,是一个CBR智能体。它接收用户任务,从案例记忆中检索K个相关案例,据此制定计划(分解为子任务),并写入子任务记忆
  • 执行器(Executor):由轻量LLM(如o4-mini)驱动,负责执行子任务。它读取子任务,使用工具记忆(记录工具使用历史),调用相应工具(如搜索、代码执行),并将结果写回。

三类记忆模块分工

  • 案例记忆(Case Memory):存储宏观规划经验(任务-计划-奖励)。
  • 子任务记忆(Subtask Memory):记录当前任务的子任务列表及其状态。
  • 工具记忆(Tool Memory):记录每个子任务下的工具调用和返回结果。

这种设计确保了任务上下文的持续传递和精细化管理。

强大的工具集成

为了应对深度研究的复杂需求,AgentFly通过Model Context Protocol (MCP) 集成了丰富的外部工具:

  • 信息获取:Meta搜索引擎(SearxNG) + 精准爬虫(Crawl4AI)
  • 多模态处理:支持图片、音频、视频、PDF、PPT、表格等数十种格式的解析与理解
  • 推理与分析:Python代码执行沙盒、数学计算工具

这使得AgentFly能真正像人类研究员一样,在互联网上搜索信息,阅读各种格式的文档,进行数据分析,并最终给出答案。

记忆读写机制对比

机制 写入(Write) 读取(Read) 特点
非参数化 直接追加案例 TopK相似度检索 简单、快速、可解释
参数化 追加案例 + 更新Q网络 按Q值TopK检索 自适应、可学习、更精准

在深度研究场景中,任务通常是单步规划(即规划器只规划一步,执行器执行多个工具调用),因此作者将Q学习目标简化为监督学习,避免了时序差分学习的不稳定性,并用交叉熵损失替代MSE,更适合二值奖励信号。

三、实验与性能

论文在4个具有挑战性的基准上进行了全面评估,充分验证了AgentFly的有效性。

数据集

  • GAIA:复杂工具使用与多步规划,分3个难度等级。
  • DeepResearcher:7个开源QA数据集合集,测试实时网络研究与多跳推理。
  • SimpleQA:事实性单跳问答,检验幻觉抑制能力。
  • HLE (Humanity’s Last Exam):涵盖多学科的长尾知识问答,测试极限推理能力。

主要结果

在这里插入图片描述
在这里插入图片描述

  • DeepResearcher:AgentFly取得了66.6% F180.4% PM的平均分数,显著超越所有Prompt-Based和Training-Based基线模型,证明了其在线研究能力的强大。
  • GAIA:在验证集上达到87.88% Pass@3,排名第一;在测试集上达到79.40%,名列前茅,超越了Manus、AWorld、OWL等知名开源框架。
  • SimpleQA:达到95.0% 的准确率,创下新SOTA,表明其出色的*事实准确性和抗幻觉能力*。
  • HLE:达到24.4% PM,仅次于GPT-5,在专家级长尾知识问题上展现了惊人潜力。

消融实验

在这里插入图片描述

消融实验清晰地展示了各个组件的贡献:

  • 离线执行器 → 在线执行器:接入实时工具带来巨大提升(如SimpleQA: +28.8 F1),但有时因数据污染会下降(DeepResearcher: -18.0 F1),说明模型内部知识同样重要
  • 在线执行器 → AgentFly (w/o CBR):增加规划器带来全面、显著的提升(所有任务+10~30点),证明*规划与工具编排至关重要*。
  • AgentFly (w/o CBR) → 完整AgentFly:引入CBR记忆机制带来一致的额外提升(+4~8点),证明了案例推理的独立价值

持续学习与泛化能力

在这里插入图片描述
在这里插入图片描述

  • 持续学习:随着迭代次数增加(案例库变大),性能持续提升,参数化CBR增益优于非参数化。
  • OOD泛化:在训练时未见的任务上(MusiQue, Bamboogle, PopQA),性能仍有4.7% ~ 9.6% 的绝对提升,展现了出色的泛化能力。

超参数分析

在这里插入图片描述

检索案例数 并非越多越好。实验表明, 时效果最佳,超过后性能持平或下降。这说明少量高质量案例比大量噪声案例更有效,与少样本学习中的“越多越好”结论不同,凸显了记忆 curation(策展)的重要性

四、讨论与分析

效率与成本分析

在这里插入图片描述
在这里插入图片描述

  • 工具使用统计:随着任务难度增加,代码、搜索、爬虫工具的使用占比显著上升,说明复杂任务更依赖外部信息获取和处理。
  • Token消耗:Level 3任务的输入Token(121k)远高于输出Token(9.8k),说明计算开销主要来自整合和分析多步工具的输出,而非生成最终答案。这为优化系统性能指明了方向。

规划器模式:“快思考”胜于“慢思考”

在这里插入图片描述

一个有趣的发现是:使用快速、非慎思的规划器(GPT-4.1)配以强大的执行器(o3),其效果(70.9%)远好于使用慢速、慎思的规划器(o3本身,63.03%)。分析表明,慢速规划器容易产生冗长、模糊的计划,甚至跳过规划直接回答问题,导致执行器困惑。而快速规划器能生成简洁、结构化的计划,更有效地指导执行器。

这揭示了在模块化系统中,角色清晰分工比每个组件都“大力出奇迹”更重要。

五、结论

AgentFly提出了一种革命性的LLM智能体持续学习范式。其核心在于将智能体形式化为一个记忆增强的MDP,通过案例推理(CBR) 机制,利用外部记忆库存储和复用历史经验,从而实现在线、高效的适应性学习,而无需微调LLM参数

这项工作的巨大价值在于:

  1. 理论创新:将CBR与最大熵RL相结合,为智能体学习提供了新的形式化框架。
  2. 工程实用:提出的 planner-executor 架构与MCP工具集成,是一个强大、可扩展的深度研究智能体系统。
  3. 性能卓越:在多个权威基准上达到顶尖水平,充分验证了方法的有效性。
  4. 低成本高效益:开辟了一条不依赖昂贵微调、更接近人类学习方式的智能体发展路径。

未来,AgentFly的研究方向可能包括:更高效的记忆压缩与检索机制、遗忘策略以应对记忆爆炸、以及在更开放的多智能体环境中的协作与应用。这项工作无疑为迈向通用人工智能(AGI)的关键一步——持续终身学习——提供了坚实而高效的实现基础。


六、如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐