大语言模型在处理长任务时,记忆管理是关键瓶颈。现有方案存在三大问题:LTM/STM分离管理导致碎片化;训练范式不匹配,奖励稀疏;部署成本高。为解决这些问题,论文提出Agentic Memory(AgeMem)框架,将LTM与STM管理统一到智能体策略中。AgeMem通过工具化记忆操作与渐进式RL训练,实现端到端优化的记忆管理,让智能体自主决策记忆操作,并通过三阶段RL训练掌握协同策略。实验结果表明,AgeMem在HotpotQA上显著提升了记忆质量,证明了其有效性。未来方向包括动态工具扩展、多模态记忆和轻量化优化,以适应更复杂场景和轻量级智能体。


一、背景

在大语言模型(LLM)智能体处理长任务(如多步推理、复杂对话)时,记忆管理是决定性能的关键瓶颈。现有方案存在三大核心问题,导致智能体难以实现高效的长任务推理:

1. 长短期记忆(LTM/STM)分离管理

现有方法将LTM(持久化存储用户/任务知识)与STM(当前输入上下文)视为独立模块:

  • 短期记忆 (short-term memory STM)优化:依赖检索增强生成(RAG)或固定周期总结(如ReSum),但依赖预定义规则(如每10轮总结),易遗漏关键细节或引入冗余;
  • 长期记忆(long-term memory LTM)优化:分为触发式(固定时机执行记忆操作)和智能体式(专用管理器控制存储),但依赖手工规则或辅助模型,适应性差且系统复杂;

核心问题LTM与STM独立优化后通过“即插即用”方式组合,导致记忆构建碎片化,无法协同支撑长程任务(如STM过滤的噪声可能影响LTM检索,LTM存储的冗余信息会加重STM负担)。

2. 训练范式不匹配

传统强化学习(RL)假设轨迹连续、奖励稳定,但记忆操作导致经验碎片化:

  • LTM训练依赖会话级先验信息,STM训练需注入干扰项模拟长上下文,两者训练目标脱节;
  • 记忆操作(如存储/删除)的奖励具有稀疏性(仅任务结束时反馈)和不连续性(中间操作无即时奖励),端到端优化困难。

3. 部署成本高

多数记忆系统依赖辅助专家模型(如专用记忆管理器),增加推理 latency 和训练复杂度,难以适配轻量级智能体场景。

为解决上述问题,论文提出Agentic Memory(AgeMem)——首个将LTM与STM管理统一到智能体策略中的框架,通过工具化记忆操作与渐进式RL训练,实现端到端优化的记忆管理

二、Agentic Memory(AgeMem)框架设计

AgeMem的核心思想是**“记忆操作即动作”**:将LTM/STM的管理通过工具接口暴露给LLM智能体,让智能体自主决策“何时/何种/如何”执行记忆操作(如存储、检索、总结),并通过三阶段RL训练掌握协同策略

独立与统一内存管理框架的对比。(左)传统框架,采用静态 STM 与基于触发的 LTM。(中)独立框架,新增一个 Memory Manager 以基于智能体的方式控制 LTM,而 STM 保持静态。(右)提出的 AgeMem 框架,通过显式的基于工具的操作,对 LTM 与 STM 进行联合且智能的管理

1. 统一记忆操作工具集

设计6类记忆工具,覆盖LTM与STM的全生命周期管理,工具调用作为智能体动作的一部分,而非外部模块

工具 目标记忆 核心功能
ADD LTM 向长期记忆库中添加新知识 (如用户偏好、任务关键信息),支持元数据标注(如“用户偏好-学习风格”)
UPDATE LTM 修改已有LTM条目 (如用户更新偏好时,替换旧条目而非新增冗余)
DELETE LTM 删除过时/错误的LTM条目(如用户确认偏好稳定后,删除含历史修改记录的旧条目)
RETRIEVE STM 从LTM中检索与当前任务相关的记忆,注入STM上下文 (如生成学习计划时,检索用户的时间偏好)
SUMMARY STM 压缩STM中的冗余信息 (如多轮对话后总结关键决策,避免上下文溢出)
FILTER STM 过滤STM中的无关干扰项 (如用户提及的无关兴趣点,仅保留任务相关内容)

工具调用逻辑:智能体通过结构化格式(如<tool_call>标签)调用工具,例如存储用户偏好时输出:

<tool_call>[  {  "name": "Add_memory",   "arguments": {"content": "用户为视觉学习者,偏好120分钟学习时段",   "metadata": {"type": "user_preference", "category": "learning_style"}}]</tool_call>

这种设计让记忆管理成为智能体决策的内在部分,而非外部依赖。

2. 三阶段渐进式RL训练策略

为解决记忆操作的奖励稀疏性问题,设计“LTM构建→STM控制→协同推理”的三阶段训练流程,让智能体逐步掌握记忆管理能力

AgeMem 的强化学习形式建模

在每个时间步 ,AgeMem 的强化学习形式为:

  • 智能体观察到的状态
  • 由对话上下文(短期记忆)、长期记忆存储
  • 任务说明:。说明 T 包含输入查询、上下文信息, 以及(仅用于训练)期望答案

给定 ,智能体从混合动作空间 中选择动作 ,该空间既包括语言生成,也包括记忆操作。决策由参数化策略 控制,定义为

其中 表示 LLM 的参数,且 。对于轨迹 ,累积奖励定义为:

其中, 衡量任务表现与记忆质量抑制冗余存储、过度工具调用及无控上下文扩张。优化目标为:

阶段1:LTM构建(学习“存储什么”)
  • 任务设计:智能体在在非正式的对话环境中接触上下文信息(如用户学习背景) ,需自主识别关键信息并调用ADD/UPDATE工具构建LTM
  • 核心目标:目标是识别关键信息并将其存入LTM ;
阶段2:STM控制(学习“如何维护上下文”)
  • 任务设计:重置STM(避免信息泄露),保留阶段1的LTM,向智能体注入语义相关但无关的干扰项(;
  • 核心目标调用FILTER/SUMMARY工具抑制噪声、压缩上下文
阶段3:整合推理与记忆协同(学习“如何协同记忆”)
  • 任务设计给智能体下达正式任务,需结合LTM(用户偏好)与STM(当前任务需求),调用RETRIEVE获取相关记忆,同时通过SUMMARY/FILTER维护上下文;
  • 核心目标:智能体收到正式查询,需要同时完成精确推理与高效记忆检索。它必须从 中检索相关知识,妥善管理上下文 ,并生成最终答案

奖励反馈任务结束时基于“任务性能+记忆质量+上下文效率”给出综合奖励,将终端奖励反向关联到前两阶段的记忆操作。

3. 分步GRPO:解决记忆奖励稀疏性

针对记忆操作的奖励碎片化问题,基于Group Relative Policy Optimization(GRPO)改进为分步GRPO,实现长上下文信用分配:

将长任务奖励与所有阶段的记忆决策关联起来。对于任务 ,令 表示并行 rollout 的组。每条轨迹产生一个终端奖励 。按如下方式计算终端步的组归一化优势:

其中, 和 是 内奖励的均值和标准差, 用于防止除零。

  1. 分组归一化优势:将同任务的K个独立轨迹视为一组,对终端奖励做归一化(均值减、标准差除),避免不同任务奖励尺度差异影响学习
  2. 奖励广播:将归一化后的终端奖励广播到轨迹的所有步骤,让阶段1的“存储操作”和阶段2的“过滤操作”都能获得学习信号;

该优势被广播至同一条轨迹的所有前置步骤:,从而为轨迹上的所有记忆与推理动作(包括阶段 1 和阶段 2)赋予一致的学习信号

  1. KL正则化:优化时加入当前策略与参考策略的KL散度约束,避免记忆操作过于激进(如频繁删除有用记忆)。

目标函数:

其中

  • 重要性权重 控制新策略下的更新幅度
  • 表示当前策略 与固定参考策略 之间的 KL 散度惩罚,
  • 是平衡探索与训练稳定性的系数。

4. 复合奖励函数设计

为引导智能体同时优化“任务性能”与“记忆质量”,设计多组件奖励,所有组件归一化到[0,1]以平衡权重:

  • 任务奖励()由LLM评估智能体最终答案与标准答案的一致性(如学习计划是否符合用户偏好);
  • 上下文奖励():评估STM管理效率——包括压缩效率(终端上下文token数/预算)、预防性操作(溢出前调用SUMMARY/FILTER)、信息保留(关键信息未被过滤);
  • 记忆奖励():评估LTM质量——包括存储质量(高质量记忆占比)、维护操作(有效UPDATE/DELETE次数)、语义相关性(检索记忆与任务的匹配度);
  • 惩罚项()约束违规行为(如超对话轮次、上下文溢出), penalty 系数设为-2,确保严重违规会显著降低总奖励。

三、实验结果

不同方法在 HotpotQA 上的记忆质量得分。得分越高,表示存储的记忆与真实事实之间的相关性越好

AgeMem的记忆质量(MQ)显著高于基线,AgeMem通过RL学习到“选择性存储”——优先存储与任务强相关的信息(如用户的学习时长偏好),而非盲目存储所有内容,减少LTM冗余

对比基线:包括4类主流记忆系统与消融变体:

  • 传统记忆系统:LangMem(模块化记忆框架)、A-Mem(基于Zettelkasten的结构化记忆)、Mem0(可扩展提取-更新管道)、Mem0g(Mem0的图结构变体);
  • 消融变体:AgeMem-noRL(无RL训练的AgeMem)、AgeMem-RAG(用RAG替代STM工具);

评估指标:任务完成率(SR/PR)、记忆质量(MQ,LLM评估LTM与真实事实的相关性)、上下文效率(终端STM的token数)。

五项基准测试的性能对比

AgeMem较AgeMem-noRL平均提升8.5-8.7个百分点,证明渐进式RL能有效学习记忆策略

image

AgeMem在保持任务性能的同时,有效减少STM的token消耗

STM工具(SUMMARY/FILTER)能主动压缩冗余、过滤噪声,而RAG需注入所有检索结果,容易导致上下文膨胀

HotpotQA 上的工具使用统计,RL训练后工具使用更具策略性

对 LTM、STM 和 RL 组件的消融实验(Qwen2.5-7B-Instruct)。Base:无记忆基线;+LT:AgeMem-noRL-RAG(仅用 LTM 工具);+LT/RL:AgeMem-RAG(带 LTM 工具的 RL);+LT/ST/RL:AgeMem(含 RL 的完整 AgeMem 系统)。绿色箭头表示 相对于基线的性能提升

四、局限性与未来方向

1. 现有局限

  • 工具集固定:当前6类工具覆盖基础记忆操作,但未支持细粒度控制(如LTM的优先级排序、STM的片段级总结);
  • 任务覆盖有限:实验集中在单智能体任务,未验证多智能体协作场景(如多智能体共享LTM);
  • 计算成本:RL训练需多轮rollout,较无RL方案增加约30%训练时间。

2. 未来方向

  • 动态工具扩展:基于任务需求自动生成记忆工具(如科研任务需“文献引用记忆”工具);
  • 多模态记忆:扩展LTM支持图像、音频等多模态信息,适配更复杂场景(如具身智能体的视觉记忆);
  • 轻量化优化:压缩RL训练开销,适配边缘设备上的轻量级智能体。

​最后

我在一线科技企业深耕十二载,见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​
在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。

img
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

在这里插入图片描述

​​
在这里插入图片描述

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​在这里插入图片描述
在这里插入图片描述

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐