收藏必备:小白/程序员快速入门AI Agent记忆系统(北大NUS最新论文解读)
Agent的记忆系统是一个庞大而精密的工程,涉及形态设计、功能规划、动态管理等多个维度。关键要点回顾为什么需要记忆:解决LLM金鱼脑问题,Agent必须有外部记忆系统记忆的形态:Token级、参数化、潜变量三种形态记忆的功能:事实记忆、经验记忆、工作记忆记忆的动态性:形成→演化→检索的完整生命周期工具与评估:20+开源框架,30+评估基准未来方向:生成式、自动化、RL驱动、多模态等7大趋势。
大语言模型记忆有限,AI Agent需记忆系统支持持续交互。本文解析北大、NUS等高校联合研究的论文,阐述Agent记忆的三大核心环节(形成、进化、检索),三种形态(Token级、参数化、潜变量),三大功能(事实记忆、经验记忆、工作记忆),及主流开源框架与评估基准。最后探讨记忆系统未来七大趋势,为AI产品经理提供产品设计建议。

一、为什么Agent需要记忆系统?
先说一个残酷的事实:大语言模型本质上是金鱼大脑。
什么意思呢?当你关闭对话窗口,或者上下文超过token限制时,LLM就会把之前的一切忘得一干二净。这对简单问答没问题,但对需要持续交互的Agent来说是灾难性的。
想象这个场景:
- 第1轮:你告诉AI助手你喜欢咖啡不喜欢茶
- 第10轮:它给你推荐了一堆茶饮
- 第20轮:它又问你喜欢喝什么饮料
这就是没有记忆系统的典型表现。
而一个真正有记忆的Agent应该能够:
- 记住事实:你的偏好、历史对话、任务状态
- 学习经验:哪些方法有效、哪些策略失败过
- 保持专注:在长时间对话中保持任务连贯性
这篇论文提出了一个核心观点:Agent记忆不是简单的上下文扩展,而是一个可读、可写、可生长、可遗忘的插件式记忆系统。

二、Agent记忆的三大核心问题
这篇论文用一个超级清晰的框架,将Agent记忆拆解为三个核心环节:
1. 形成(Formation):记忆如何产生?
就是将原始交互数据提炼成结构化记忆单元的过程。
例如,如果你和AI助手聊了半小时旅行,它需要从这些对话中提取:
- 你喜欢海边胜过山区
- 你的预算是5000-8000元
- 你更喜欢自由行而非跟团
这个过程可以通过语义摘要、知识蒸馏、结构化等技术实现。
2. 进化(Evolution):记忆如何演变?
记忆不是静态的,需要持续更新、合并,甚至遗忘。
想想人脑:
- 合并:将多次对话中相同的信息合并
- 更新:用新信息修正旧记忆中的错误
- 遗忘:清理不重要或过时的记忆,避免污染
例如,你一开始说喜欢咖啡,后来又说其实更喜欢茶,Agent就需要能够更新这个偏好记忆。
3. 检索(Retrieval):如何调用记忆?
有记忆不够,关键是要能在需要时准确调用出来。
检索包含四个关键步骤:
- 触发时机:何时应该检查记忆?
- 查询结构:如何将当前问题转化为检索查询?
- 检索策略:如何找到最相关的记忆?
- 后处理:如何过滤、排序、压缩检索结果?
这三个环节构成了记忆的完整生命周期,缺一不可。
三、记忆的三种形态:不只是长短期记忆
传统上,我们习惯将记忆分为长期记忆和短期记忆,但这篇论文提出了更科学的分类方法,根据记忆的载体形态将记忆分为三类:
形态1:Token级记忆(人类可读)
这是最直观的记忆形式,以文本、JSON、图结构等形式存储。
优势:
- 人类可直接阅读和修改
- 易于调试和审计
- 更新成本低
适用场景:
- 聊天机器人的对话历史
- 法律文档的审计轨迹
- 需要可解释性的应用
这种记忆还可按复杂度细分:
- 1D平面型:如对话日志这样的线性序列
- 2D平面型:树状或图状结构,如推理树
- 3D层次型:多级结构,如原始文档→摘要→关键问答
形态2:参数化记忆(写入参数)
这种记忆直接嵌入在模型的参数权重中。
优势:
- 推理时无需额外检索
- 响应速度快
- 适合高频使用的知识
劣势:
- 人类无法直接查看
- 更新成本高,需要微调
适用场景:
- 角色扮演Agent的个性特征
- 特定领域的专业知识
- 代码生成的编程范式
形态3:潜变量记忆(机器可读)
这是最轻量级的记忆形式,以KV缓存或Embedding向量形式存储。
优势:
- 更新成本极低
- 适合边缘设备部署
- 支持多模态融合
适用场景:
- 端侧AI应用
- 实时视频理解
- 多模态交互场景
这三种形态并无优劣之分,应该根据具体场景选择合适的组合。
四、记忆的三大功能:Agent到底该记住什么?
有了形态还不够,更重要的是明确Agent需要记住什么。论文将记忆功能分为三类:
功能1:事实记忆(Factual Memory)
核心定位:我知道什么
这类记忆存储客观的陈述性知识,包括:
- 用户画像:偏好、习惯、背景信息
- 文档状态:任务进度、历史行为
- 世界知识:领域概念、实体关系
典型应用:
- 个性化推荐系统
- 多轮对话中的上下文维护
- 长期目标对齐保障
例如,智能客服记住你上次咨询的问题、你的会员等级、购买过的产品,这些都是事实记忆。
功能2:经验记忆(Experiential Memory)
核心定位:我学到了什么
这是Agent进化的关键,从过去经验中学习,包括:
- 成功案例:哪些方法有效
- 失败教训:踩过哪些坑
- 策略模板:提炼出的通用解决方案
- 技能库:可复用的能力模块
论文根据抽象程度将经验记忆分为四个层次:
Level 1 - 基于案例直接存储原始完整轨迹,就像视频回放。 例子:JARVIS-1记录完整的任务执行过程
Level 2 - 基于策略提炼出通用工作流程和决策树。 例子:AWM总结出处理某类问题的标准流程
Level 3 - 基于技能提炼成可直接调用的代码或API。 例子:Voyager积累了Minecraft技能代码库
Level 4 - 混合型综合使用多种记忆表示。 例子:ExpeL既保存轨迹也保存策略
功能3:工作记忆(Working Memory)
核心定位:我现在在想什么?
这是Agent的瞬时工作台,负责:
- 当前任务的上下文
- 中间推理步骤
- 临时状态管理
关键作用:
- 长期任务规划中的状态跟踪
- 实时决策所需的即时信息
- 注意力焦点的动态调整
可以理解为人类大脑的前额叶功能,负责短期信息的临时存储和处理。
这三种记忆并非孤立,而是协同工作:事实记忆提供背景知识,经验记忆指导行动策略,工作记忆维持执行连贯性。
五、市场上成熟的记忆框架有哪些?
目前比较常用的有20+开源框架,我挑几个最值得关注的:
1. MemGPT:分层记忆管理
核心特点:
- 模仿操作系统的分页机制
- 将记忆分为短期记忆和长期记忆
- 在两者之间自动调度
适用场景:
- 长对话问答
- 大文档解析
- 需要上下文连贯性的应用
我在一个客服系统中用过类似机制,效果真的很好,长对话的连贯性明显提升。
2. Mem0:图+向量混合存储
核心特点:
- 同时使用知识图谱和向量数据库
- 保留结构化关系的同时支持语义检索
- 支持多种记忆类型
适用场景:
- 个性化交互场景
- 需要复杂关系推理的应用
- 多Agent协作系统
3. Zep:时序知识图谱
核心特点:
- 重点关注时间维度的记忆管理
- 自动记录事件的时间关系
- 支持记忆的演化追踪
适用场景:
- 多轮对话的一致性维护
- 需要历史回溯的场景
- 时间敏感的任务规划
4. MemOS:树结构+记忆立方体
核心特点:
- 用多维结构组织记忆
- 支持分层记忆检索
- 覆盖各类记忆管理
适用场景:
- 复杂任务规划
- 多目标协同优化
- 大规模知识管理
5. Pinecone:向量数据库优化
核心特点:
- 专注高性能向量检索
- 支持亿级规模embedding存储
- 低延迟查询优化
适用场景:
- 大规模检索场景
- 多模态记忆管理
- 需要极致性能的应用
这些框架各有侧重,选择时应根据你的具体需求:
- 重视可解释性 → MemGPT或Mem0
- 需要时序追踪 → Zep
- 追求极致性能 → Pinecone
- 场景复杂多变 → MemOS
六、如何评估记忆系统的质量?
有框架还不够,如何知道记忆系统做得好不好?论文总结了30+评估基准,分为两类:
直接评估:专门测试记忆能力
MemBench
- 包含53,000个测试样本
- 覆盖记忆形成、检索、更新全过程
- 业内认可度最高
LongMemEval
- 专注长期记忆保持能力
- 测试记忆随时间的衰减
- 适合评估持久性协议
PersonaMem
- 评估动态用户画像的保持性
- 测试偏好变更时的更新机制
- 聚焦个性化场景
间接评估:从任务表现反推记忆质量
WebArena
- 真实网页交互任务
- 需要跨页面维持上下文
- 测试工作记忆的稳定性
SWE-Bench
- 代码修复任务
- 需要理解整个代码库上下文
- 测试事实和经验记忆的综合运用
GAIA
- 深度研究任务
- 需要长期知识积累
- 测试记忆的全方位能力
特色维度评估
MM-Needle (多模态)
- 在多模态数据流中寻找特定信息
- 测试跨模态记忆整合能力
HaluMem (防幻觉)
- 专门检测记忆引起的幻觉问题
- 评估记忆的可靠性和准确性
LifelongAgentBench (终身学习)
- 测试Agent持续学习能力
- 评估记忆的演化和适应性
选择评估标准时,应明确你关注的核心指标:
- 准确性?持久性?还是灵活性?
- 单任务表现还是综合能力?
- 短期效果还是长期演化?
七、Agent记忆的未来方向
论文最后总结了7个值得关注的前沿方向,我认为每个都可能改变Agent产品的形态:
方向1:生成式记忆
传统做法:检索已有记忆未来方向:生成缺失的记忆
想象当Agent发现记忆中没有相关信息时,它不会简单地说不知道,而是基于现有知识合理推测并生成一个记忆。
这类似于人类的联想记忆,比如你忘了朋友的生日,但能从其他线索推断出大概时间。
方向2:自动记忆管理
传统做法:开发者手动配置记忆策略未来方向:Agent自主决定记住什么、删除什么、改变什么
将记忆管理封装成Agent可调用的工具,让Agent自行学习什么该记、什么该忘、何时更新。
这将大大降低记忆系统的维护成本。
方向3:强化学习驱动的记忆优化
传统做法:手动设置记忆阈值和规则未来方向:用RL端到端优化记忆策略
让Agent通过强化学习自行探索最优的记忆管理策略,包括:
- 何时存储记忆
- 何时检索记忆
- 何时更新或遗忘记忆
方向4:多模态记忆融合
传统做法:以文本记忆为主未来方向:统一处理视频、音频、传感器等多模态数据
将所有模态信息映射到统一的embedding空间,支持跨模态记忆检索。
例如,你给Agent展示一段视频,之后可以用文字描述来回忆那段视频的内容。
方向5:多Agent共享记忆
传统做法:每个Agent独立维护记忆未来方向:多个Agent共享和交换记忆
但这里有个关键挑战:角色权限和隐私。
需要解决的问题:
- 什么记忆可以共享?
- 如何避免群体幻觉?
- 如何保护敏感信息?
方向6:世界模型记忆
传统做法:缓存历史交互帧未来方向:构建可查询的状态模拟器
不只是记住发生了什么,而是构建一个能预测将会发生什么的世界模型。
这让Agent能在记忆中进行假设推理,比如"如果我当时那样做会怎样?"
方向7:可信记忆
传统做法:记忆的安全性常被忽视未来方向:支持差分隐私、可验证遗忘、审计日志
这在企业级应用中尤其重要:
- 差分隐私:防止记忆泄露用户隐私
- 可验证遗忘:证明某些数据已被完全擦除
- 审计日志:追踪记忆的修订历史
- GDPR合规:支持用户数据擦除权
这7个方向并非孤立,未来的Agent记忆系统很可能是这些技术的综合体现。
八、给AI产品经理的三条建议
看完这篇论文,结合我自己的实践经验,想给大家三条建议:
1. 记忆不是可选项,而是必需品
如果你的Agent产品涉及:
- 多轮对话
- 个性化服务
- 持续学习
- 复杂任务规划
那么记忆系统不是锦上添花,而是基础设施。
不要等到用户抱怨对话不连贯时才想起它。
2. 选择记忆方案要务实
不要盲目追求最新最炫的技术,而是根据实际需求选择:
考虑这些问题:
- 你的场景需要多长的记忆保留?
- 对可解释性要求多高?
- 记忆更新频率如何?
- 用户规模和数据量有多大?
- 对响应延迟有何限制?
决策框架:
- 以短期记忆为主 → 工作记忆+潜变量形式
- 个性化服务 → 事实记忆+Token级形式
- 持续学习 → 经验记忆+参数化形式
- 复杂推理 → 多层次Token级记忆
3. 记忆的演化与遗忘同样重要
很多团队只关注如何存储和检索记忆,却忽视了记忆的生命周期管理。
实操建议:
定期清理过期记忆
- 设置合理的TTL(过期时间)
- 基于访问频率进行冷热分层
- 及时删除冲突或错误的记忆
建立记忆更新机制
- 新信息覆盖旧信息的规则
- 冲突信息的仲裁策略
- 用户反馈的快速修正通道
监控记忆质量
- 定期检查记忆准确性
- 追踪记忆导致的错误率
- 建立记忆的A/B测试机制
考虑隐私与合规
- 敏感信息加密存储
- 支持用户删除个人数据
- 保留审计日志
九、总结
Agent的记忆系统是一个庞大而精密的工程,涉及形态设计、功能规划、动态管理等多个维度。
给大家提供一个完整的分析框架:
关键要点回顾:
- 为什么需要记忆:解决LLM金鱼脑问题,Agent必须有外部记忆系统
- 记忆的形态:Token级、参数化、潜变量三种形态
- 记忆的功能:事实记忆、经验记忆、工作记忆
- 记忆的动态性:形成→演化→检索的完整生命周期
- 工具与评估:20+开源框架,30+评估基准
- 未来方向:生成式、自动化、RL驱动、多模态等7大趋势
作为AI产品经理,我们不需要实现所有技术细节,但必须理解记忆系统的核心逻辑,才能设计出真正有竞争力的Agent产品。
记忆,让Agent从一次性工具转变为持续的伙伴。
最后
对于正在迷茫择业、想转行提升,或是刚入门的程序员、编程小白来说,有一个问题几乎人人都在问:未来10年,什么领域的职业发展潜力最大?
答案只有一个:人工智能(尤其是大模型方向)
当下,人工智能行业正处于爆发式增长期,其中大模型相关岗位更是供不应求,薪资待遇直接拉满——字节跳动作为AI领域的头部玩家,给硕士毕业的优质AI人才(含大模型相关方向)开出的月基础工资高达5万—6万元;即便是非“人才计划”的普通应聘者,月基础工资也能稳定在4万元左右。
再看阿里、腾讯两大互联网大厂,非“人才计划”的AI相关岗位应聘者,月基础工资也约有3万元,远超其他行业同资历岗位的薪资水平,对于程序员、小白来说,无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说,现在正是最好的学习时机:行业缺口大、大厂需求旺、薪资天花板高,只要找准学习方向,稳步提升技能,就能轻松摆脱“低薪困境”,抓住AI时代的职业机遇。
如果你还不知道从何开始,我自己整理一套全网最全最细的大模型零基础教程,我也是一路自学走过来的,很清楚小白前期学习的痛楚,你要是没有方向还没有好的资源,根本学不到东西!
下面是我整理的大模型学习资源,希望能帮到你。

👇👇扫码免费领取全部内容👇👇

最后
1、大模型学习路线

2、从0到进阶大模型学习视频教程
从入门到进阶这里都有,跟着老师学习事半功倍。

3、 入门必看大模型学习书籍&文档.pdf(书面上的技术书籍确实太多了,这些是我精选出来的,还有很多不在图里)

4、 AI大模型最新行业报告
2026最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享(107 道)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
-
硬件选型
-
带你了解全球大模型
-
使用国产大模型服务
-
搭建 OpenAI 代理
-
热身:基于阿里云 PAI 部署 Stable Diffusion
-
在本地计算机运行大模型
-
大模型的私有化部署
-
基于 vLLM 部署大模型
-
案例:如何优雅地在阿里云私有部署开源大模型
-
部署一套开源 LLM 项目
-
内容安全
-
互联网信息服务算法备案
-
…
👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐

所有评论(0)