本文提出Agentic Memory(AgeMem)统一框架,将长短期记忆管理工具化并融入LLM智能体决策。通过三阶段渐进式强化学习策略与分步GRPO机制解决稀疏奖励问题。实验表明,该框架在五大长程任务基准上实现了更优的任务性能、更高质量的长期记忆及更高效的上下文利用,为解决LLM长程推理瓶颈提供了新思路。


摘要:大语言模型(LLM)智能体受限于有限上下文窗口,在长程推理中面临根本性瓶颈,高效记忆管理因而至关重要。现有方法通常把长期记忆(LTM)与短期记忆(STM)当作两个独立模块,依赖启发式规则或额外控制器,既缺乏适应性,也难以端到端优化。本文提出“智能体记忆”(AgeMem))——一套统一框架,将 LTM 与 STM 的管理直接融入智能体策略。AgeMem 把记忆操作(存、取、更新、摘要、丢弃)封装为可调用工具,让 LLM 自主决定“记什么、何时记”。为训练这种一体化行为,我们设计三阶段渐进式强化学习流程,并引入分段 GRPO,以解决记忆操作带来的稀疏、非连续奖励问题。在五大长程任务基准上的实验表明,AgeMem 在多种 LLM 骨干网络上均稳定超越强记忆基线,实现更高任务性能、更优长期记忆质量与更高效的上下文利用率。

论文标题: "Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents"作者: "Yi Yu, Liuyi Yao, Yuexiang Xie"发表年份: 2026原文链接: "https://arxiv.org/abs/2601.01885"关键词: ["LLM Agent", "Memory Management", "Reinforcement Learning", "Long-Term Memory", "Short-Term Memory", "Tool Using"]

一、为啥 LLM Agent 需要更好的记忆?

想象一下,你让一个 AI 助手帮你规划一个为期一个月的旅行。它需要记住你的预算、偏好、已经预订的机票酒店,还得在规划新行程时随时参考这些信息。如果它的“记性”不好,上下文窗口又有限,那它很快就会把你之前说过的话忘得一干二净,反复问你相同的问题,甚至做出驴唇不对马嘴的规划。

这就是 LLM Agent 在处理长程任务(long-horizon tasks)时面临的核心痛点:有限的上下文窗口。为了解决这个问题,研究者们引入了两种记忆机制:

    1. 长期记忆(Long-Term Memory, LTM):像一个外部数据库,用来持久化存储关键信息,比如用户偏好、核心知识等。
    1. 短期记忆(Short-Term Memory, STM):就是模型当前的上下文(Context),用来处理眼前的对话和任务。

然而,现有的方法大多是“分裂”的。它们通常把 LTM 和 STM 当作两个独立的模块来处理:

  • LTM 的管理:要么靠预设的规则(比如每隔几轮对话就存一次),要么靠一个额外的“记忆管理器”来决定存什么、怎么存。这就像给你的大脑外挂了一个需要手动操作的记事本,不够智能,也不够灵活。
  • STM 的管理:通常用 RAG 来压缩和筛选上下文,但这种方式同样依赖固定的规则,很容易在压缩时丢失关键细节,或者引入不相关的噪声。

这种“各自为政”的设计,导致记忆的构建和使用是脱节的,无法根据任务动态调整,更别提端到端优化了。

二、方法总览:当记忆管理变成一种“工具”

AgeMem 框架的核心思想,就是把复杂的记忆管理过程,抽象成一系列简单的“工具”。Agent 不再被动地接受记忆,而是可以主动地、智能地决定何时如何以及对什么信息执行记忆操作。

三种记忆管理框架对比

上图清晰地展示了 AgeMem 与传统方法的区别:

  • (a) 传统框架:STM 是静态的,LTM 靠固定的触发器来管理,两者完全分离。
  • (b) 稍好点的框架:引入了一个 Agent 来管理 LTM,但 STM 依然是静态的,两者还是各玩各的。
  • © AgeMem 框架:彻底统一了 STM 和 LTM。Agent 拥有了一套“记忆工具箱”,可以像调用 API 一样,同时对 LTM 和 STM 进行增、删、改、查、总结、过滤等一系列操作。整个过程由 Agent 自主决策,实现了真正的代理式记忆管理

打个比方,传统方法就像是你一边看书(STM),一边手动往笔记本(LTM)上抄重点。而 AgeMem 则给了你一个智能助手,它不仅能帮你自动整理笔记,还能在你阅读时,帮你高亮重点、折叠无关段落,甚至在你需要时,主动从笔记本里找出相关内容补充到当前阅读页。

三、关键贡献

这篇论文的核心贡献可以总结为三点:

  • 提出了 AgeMem 框架:一个统一的、代理式的记忆框架,让 LLM Agent 能通过调用工具自主管理长短期记忆。
  • 设计了三阶段渐进式强化学习策略:通过一个巧妙的“三步走”训练过程,并结合名为 GRPO 的强化学习算法,让 Agent 有效地学会了这套复杂的记忆操作。
  • 全面的实验验证:在 5 个长程推理基准上,AgeMem 全面超越了现有的强基线模型,证明了其在提升任务性能、记忆质量和上下文效率上的巨大优势。

四、深度拆解:Agent 是如何学会管理记忆的?

AgeMem 的实现可以拆解为三大核心模块:一套标准化的记忆工具接口,一个循序渐进的三阶段强化学习策略,以及一套精心设计的奖励函数

1. 统一的记忆工具接口 (Memory Management via Tool Interface)

AgeMem 的精髓在于它把对 LTM 和 STM 的所有操作都封装成了标准化的工具。Agent 可以像我们使用手机 App 一样,按需调用。

AgeMem 中的记忆管理工具

从上表可以看出,这套工具箱分工明确,覆盖了记忆管理的方方面面:

针对长期记忆 (LTM) 的工具:

  • ADD: 就像是往你的知识库里添加一条新笔记。当 Agent 发现一个重要的新知识点(比如用户的最新偏好),就可以调用它存入 LTM。
  • UPDATE: 更新一条旧笔记。比如用户改变了主意,Agent 就可以用这个工具修改之前存储的记录。
  • DELETE: 删除一条过时或无用的笔记,保持知识库的整洁。

针对短期记忆 (STM) 的工具:

  • RETRIEVE: 从 LTM 中检索信息,并把它加载到当前的对话上下文(STM)中。这相当于从笔记本里翻出一段话,贴在当前正在读的页面旁边。
  • SUMMARY: 对一段又臭又长的对话历史进行总结,提炼出核心内容,从而在不丢失重要信息的前提下,给上下文“瘦身”。
  • FILTER: 过滤掉上下文中的无关信息或“噪声”。比如用户在讨论正事时突然开始闲聊,Agent 就可以用这个工具把闲聊内容从上下文中暂时“屏蔽”掉。

通过这套工具,Agent 把“如何记忆”这个模糊的问题,转化成了一系列“何时调用何种工具”的具体决策问题,为后续的强化学习训练铺平了道路。

2. 三阶段渐进式强化学习策略 (Three-Stage Progressive RL Strategy)

光有工具还不行,还得教会 Agent 怎么用。直接让模型从零开始学习这一整套复杂的决策是非常困难的,就像让一个婴儿直接学微积分一样。

因此,文章设计了一个非常聪明的三阶段渐进式训练策略,像升级打怪一样,分步解锁能力:

    1. 阶段一:学习构建 LTM (LTM construction)
  • 目标:学会从对话中识别有价值的信息,并使用 ADD, UPDATE, DELETE 工具存入 LTM。
  • 过程:给 Agent 提供包含背景知识的对话,让它练习“记笔记”的能力。
    1. 阶段二:学习控制 STM (STM control under distractors)
  • 目标:学会在充满干扰的环境中,有效管理上下文。
  • 过程:在对话中故意注入大量无关的“干扰信息”(distractors),强迫 Agent 学会使用 SUMMARYFILTER 工具来保持上下文的干净和高效。此时,第一阶段构建的 LTM 会被保留。
    1. 阶段三:学习统一协作 (Integrated reasoning and memory coordination)
  • 目标:融会贯通,学会协调使用 LTM 和 STM 来解决实际问题。
  • 过程:给 Agent 一个需要结合历史知识(LTM)和当前对话(STM)才能解决的复杂任务。Agent 必须学会先用 RETRIEVE 从 LTM 中提取相关知识,再结合 STM 中的信息进行推理,最终给出答案。

LTM、STM 和 RL 组件的消融研究

上图的消融实验完美地证明了这个三阶段策略的有效性。可以看到,在三个不同的数据集上(ALFWorld, SciWorld, HotpotQA),每增加一个模块(+LT 表示只加 LTM,+LT/RL 表示增加 LTM 和强化学习,+LT/ST/RL 表示完整的 AgeMem),模型的性能都有显著的提升。这说明 LTM、STM 和强化学习这三个组件,缺一不可,而且组合在一起能发挥出 1+1+1 > 3 的效果。

3. 奖励函数设计:如何引导 Agent 做出“好”决策?

强化学习的核心在于奖励函数的设计,它就像是驯兽师手里的胡萝卜和大棒,告诉 Agent 什么样的行为是好的,什么样的行为是坏的。

AgeMem 的奖励函数是一个组合,综合考虑了三个方面:

  • 任务完成奖励 (Task completion reward):最核心的奖励。任务完成得越好,得分越高。
  • 上下文管理奖励 (Context management reward):鼓励 Agent 高效使用上下文。比如,成功压缩了上下文长度、主动避免了上下文溢出,都会获得奖励。
  • 记忆管理奖励 (Memory management reward):鼓励 Agent 构建高质量的 LTM。比如,存储了有价值的信息、删除了无用信息、检索到了相关的记忆,都会获得奖励。

两种奖励策略的训练收敛曲线

奖励函数消融研究

为了证明这个复杂奖励函数的有效性,作者做了一个对比实验。上方的图和表比较了两种策略:

  • All-Returns(实线):使用完整的、包含任务、上下文和记忆三部分奖励的函数。
  • Answer-Only(虚线):只根据最终答案的好坏来给予奖励。

结果非常明显,All-Returns 策略(也就是 AgeMem 使用的策略)不仅收敛得更快,最终达到的平均奖励也更高。在下方的表格中,可以看到 All-Returns 在任务性能(J)和记忆质量(MQ)上都显著优于 Answer-Only 策略。这说明,通过在奖励中明确地引导模型关注记忆管理过程,确实能让它学到更聪明的记忆策略。

五、实验结果:AgeMem 到底有多能打?

俗话说“是骡子是马,拉出来遛遛”。AgeMem 的效果到底如何?作者在一系列复杂的长程推理任务上,把它和当前最主流的几个记忆增强方法(如 LangMem, A-Mem, Mem0 等)进行了全方位对比。

1. 任务性能全面领先

在五个基准测试上的性能比较

上表是在 ALFWorld、SciWorld 等五个主流 benchmarks 上的性能对比。无论使用哪种体量的模型(7B 或 4B),AgeMem (Ours) 的平均分都是最高的,把其他方法甩在了身后。这充分证明了 AgeMem 框架的普适性和卓越性能。值得注意的是,经过强化学习训练的 AgeMem,相比没有经过 RL 训练的 AgeMem-noRL 版本,性能有巨大飞跃,再次印证了三阶段训练策略的价值。

2. 记忆质量更高

任务做得好,是不是因为记的东西质量更高呢?作者在 HotpotQA 数据集上专门评估了这一点。

不同方法在 HotpotQA 上的内存质量得分

结果如图所示,AgeMem 在内存质量(Memory Quality, MQ)这个指标上同样是一骑绝尘。MQ 分数越高,意味着 Agent 存储到 LTM 里的信息和解决问题所需的事实(ground-truth facts)关联性越强。这说明 AgeMem 不仅任务完成得好,而且它构建的长期记忆知识库也是最精准、最高效的。

3. 上下文使用更高效

我们知道,LLM 的推理成本和上下文长度息息相关。AgeMem 中的 STM 工具(SUMMARYFILTER)能否有效降低 Token 消耗呢?

不同 STM 管理配置的平均 prompt token 数

上图对比了使用 STM 工具的 AgeMem 和使用传统 RAG 来管理上下文的 AgeMem-RAG 变体。结果显示,完整的 AgeMem 在两个模型上都显著降低了平均 Token 消耗,最高减少了 5.1%。别小看这 5%,在动辄万级 Token 的长程任务中,这能节省下相当可观的成本。

4. 强化学习驱动更智能的工具使用

最后,我们来看一下强化学习到底给 Agent 的行为带来了什么改变。

在 HotpotQA 上的工具使用统计

上表统计了 RL 训练前后,Agent 调用各类记忆工具的平均次数。可以发现,经过 RL 训练(GRPO)后,Agent 调用 LTM 工具(特别是 ADDUPDATE)的频率大幅增加。这说明,Agent 变得更“主动”地去构建和维护自己的知识库了,而不是被动地接收信息。同时,FILTER 工具的使用也增多了,表明 Agent 学会了更积极地清理上下文噪声。

六、未来工作与个人思考

AgeMem 框架无疑为 LLM Agent 的记忆管理研究打开了一扇新的大门,但它也存在一些可以探索的方向:

  • 更丰富的工具集:目前的工具集虽然够用,但未来可以设计更细粒度的工具,比如支持更复杂的知识关联(如构建知识图谱),或者更智能的上下文预测和调度。
  • 更广泛的评估:论文在 5 个数据集上验证了 AgeMem,未来可以在更真实、更开放的场景中检验其泛化能力,例如让它管理一个真实的个人知识库或辅助完成一个长期的软件项目。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!

在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述
在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述
在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

在这里插入图片描述
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐