收藏必备：小白/程序员快速入门AI Agent记忆系统（北大NUS最新论文解读）

Agent的记忆系统是一个庞大而精密的工程，涉及形态设计、功能规划、动态管理等多个维度。关键要点回顾为什么需要记忆：解决LLM金鱼脑问题，Agent必须有外部记忆系统记忆的形态：Token级、参数化、潜变量三种形态记忆的功能：事实记忆、经验记忆、工作记忆记忆的动态性：形成→演化→检索的完整生命周期工具与评估：20+开源框架，30+评估基准未来方向：生成式、自动化、RL驱动、多模态等7大趋势。

爱编程的小辞

340人浏览 · 2026-03-10 10:08:21

爱编程的小辞 · 2026-03-10 10:08:21 发布

大语言模型记忆有限，AI Agent需记忆系统支持持续交互。本文解析北大、NUS等高校联合研究的论文，阐述Agent记忆的三大核心环节（形成、进化、检索），三种形态（Token级、参数化、潜变量），三大功能（事实记忆、经验记忆、工作记忆），及主流开源框架与评估基准。最后探讨记忆系统未来七大趋势，为AI产品经理提供产品设计建议。

一、为什么Agent需要记忆系统？

先说一个残酷的事实：大语言模型本质上是金鱼大脑。

什么意思呢？当你关闭对话窗口，或者上下文超过token限制时，LLM就会把之前的一切忘得一干二净。这对简单问答没问题，但对需要持续交互的Agent来说是灾难性的。

想象这个场景：

第1轮：你告诉AI助手你喜欢咖啡不喜欢茶
第10轮：它给你推荐了一堆茶饮
第20轮：它又问你喜欢喝什么饮料

这就是没有记忆系统的典型表现。

而一个真正有记忆的Agent应该能够：

记住事实：你的偏好、历史对话、任务状态
学习经验：哪些方法有效、哪些策略失败过
保持专注：在长时间对话中保持任务连贯性

这篇论文提出了一个核心观点：Agent记忆不是简单的上下文扩展，而是一个可读、可写、可生长、可遗忘的插件式记忆系统。

二、Agent记忆的三大核心问题

这篇论文用一个超级清晰的框架，将Agent记忆拆解为三个核心环节：

1. 形成(Formation)：记忆如何产生？

就是将原始交互数据提炼成结构化记忆单元的过程。

例如，如果你和AI助手聊了半小时旅行，它需要从这些对话中提取：

你喜欢海边胜过山区
你的预算是5000-8000元
你更喜欢自由行而非跟团

这个过程可以通过语义摘要、知识蒸馏、结构化等技术实现。

2. 进化(Evolution)：记忆如何演变？

记忆不是静态的，需要持续更新、合并，甚至遗忘。

想想人脑：

合并：将多次对话中相同的信息合并
更新：用新信息修正旧记忆中的错误
遗忘：清理不重要或过时的记忆，避免污染

例如，你一开始说喜欢咖啡，后来又说其实更喜欢茶，Agent就需要能够更新这个偏好记忆。

3. 检索(Retrieval)：如何调用记忆？

有记忆不够，关键是要能在需要时准确调用出来。

检索包含四个关键步骤：

触发时机：何时应该检查记忆？
查询结构：如何将当前问题转化为检索查询？
检索策略：如何找到最相关的记忆？
后处理：如何过滤、排序、压缩检索结果？

这三个环节构成了记忆的完整生命周期，缺一不可。

三、记忆的三种形态：不只是长短期记忆

传统上，我们习惯将记忆分为长期记忆和短期记忆，但这篇论文提出了更科学的分类方法，根据记忆的载体形态将记忆分为三类：

形态1：Token级记忆（人类可读）

这是最直观的记忆形式，以文本、JSON、图结构等形式存储。

优势：

人类可直接阅读和修改
易于调试和审计
更新成本低

适用场景：

聊天机器人的对话历史
法律文档的审计轨迹
需要可解释性的应用

这种记忆还可按复杂度细分：

1D平面型：如对话日志这样的线性序列
2D平面型：树状或图状结构，如推理树
3D层次型：多级结构，如原始文档→摘要→关键问答

形态2：参数化记忆（写入参数）

这种记忆直接嵌入在模型的参数权重中。

优势：

推理时无需额外检索
响应速度快
适合高频使用的知识

劣势：

人类无法直接查看
更新成本高，需要微调

适用场景：

角色扮演Agent的个性特征
特定领域的专业知识
代码生成的编程范式

形态3：潜变量记忆（机器可读）

这是最轻量级的记忆形式，以KV缓存或Embedding向量形式存储。

优势：

更新成本极低
适合边缘设备部署
支持多模态融合

适用场景：

端侧AI应用
实时视频理解
多模态交互场景

这三种形态并无优劣之分，应该根据具体场景选择合适的组合。

四、记忆的三大功能：Agent到底该记住什么？

有了形态还不够，更重要的是明确Agent需要记住什么。论文将记忆功能分为三类：

功能1：事实记忆(Factual Memory)

核心定位：我知道什么

这类记忆存储客观的陈述性知识，包括：

用户画像：偏好、习惯、背景信息
文档状态：任务进度、历史行为
世界知识：领域概念、实体关系

典型应用：

个性化推荐系统
多轮对话中的上下文维护
长期目标对齐保障

例如，智能客服记住你上次咨询的问题、你的会员等级、购买过的产品，这些都是事实记忆。

功能2：经验记忆(Experiential Memory)

核心定位：我学到了什么

这是Agent进化的关键，从过去经验中学习，包括：

成功案例：哪些方法有效
失败教训：踩过哪些坑
策略模板：提炼出的通用解决方案
技能库：可复用的能力模块

论文根据抽象程度将经验记忆分为四个层次：

Level 1 - 基于案例直接存储原始完整轨迹，就像视频回放。例子：JARVIS-1记录完整的任务执行过程

Level 2 - 基于策略提炼出通用工作流程和决策树。例子：AWM总结出处理某类问题的标准流程

Level 3 - 基于技能提炼成可直接调用的代码或API。例子：Voyager积累了Minecraft技能代码库

Level 4 - 混合型综合使用多种记忆表示。例子：ExpeL既保存轨迹也保存策略

功能3：工作记忆(Working Memory)

核心定位：我现在在想什么？

这是Agent的瞬时工作台，负责：

当前任务的上下文
中间推理步骤
临时状态管理

关键作用：

长期任务规划中的状态跟踪
实时决策所需的即时信息
注意力焦点的动态调整

可以理解为人类大脑的前额叶功能，负责短期信息的临时存储和处理。

这三种记忆并非孤立，而是协同工作：事实记忆提供背景知识，经验记忆指导行动策略，工作记忆维持执行连贯性。

五、市场上成熟的记忆框架有哪些？

目前比较常用的有20+开源框架，我挑几个最值得关注的：

1. MemGPT：分层记忆管理

核心特点：

模仿操作系统的分页机制
将记忆分为短期记忆和长期记忆
在两者之间自动调度

适用场景：

长对话问答
大文档解析
需要上下文连贯性的应用

我在一个客服系统中用过类似机制，效果真的很好，长对话的连贯性明显提升。

2. Mem0：图+向量混合存储

核心特点：

同时使用知识图谱和向量数据库
保留结构化关系的同时支持语义检索
支持多种记忆类型

适用场景：

个性化交互场景
需要复杂关系推理的应用
多Agent协作系统

3. Zep：时序知识图谱

核心特点：

重点关注时间维度的记忆管理
自动记录事件的时间关系
支持记忆的演化追踪

适用场景：

多轮对话的一致性维护
需要历史回溯的场景
时间敏感的任务规划

4. MemOS：树结构+记忆立方体

核心特点：

用多维结构组织记忆
支持分层记忆检索
覆盖各类记忆管理

适用场景：

复杂任务规划
多目标协同优化
大规模知识管理

5. Pinecone：向量数据库优化

核心特点：

专注高性能向量检索
支持亿级规模embedding存储
低延迟查询优化

适用场景：

大规模检索场景
多模态记忆管理
需要极致性能的应用

这些框架各有侧重，选择时应根据你的具体需求：

重视可解释性 → MemGPT或Mem0
需要时序追踪 → Zep
追求极致性能 → Pinecone
场景复杂多变 → MemOS

六、如何评估记忆系统的质量？

有框架还不够，如何知道记忆系统做得好不好？论文总结了30+评估基准，分为两类：

直接评估：专门测试记忆能力

MemBench

包含53,000个测试样本
覆盖记忆形成、检索、更新全过程
业内认可度最高

LongMemEval

专注长期记忆保持能力
测试记忆随时间的衰减
适合评估持久性协议

PersonaMem

评估动态用户画像的保持性
测试偏好变更时的更新机制
聚焦个性化场景

间接评估：从任务表现反推记忆质量

WebArena

真实网页交互任务
需要跨页面维持上下文
测试工作记忆的稳定性

SWE-Bench

代码修复任务
需要理解整个代码库上下文
测试事实和经验记忆的综合运用

GAIA

深度研究任务
需要长期知识积累
测试记忆的全方位能力

特色维度评估

MM-Needle (多模态)

在多模态数据流中寻找特定信息
测试跨模态记忆整合能力

HaluMem (防幻觉)

专门检测记忆引起的幻觉问题
评估记忆的可靠性和准确性

LifelongAgentBench (终身学习)

测试Agent持续学习能力
评估记忆的演化和适应性

选择评估标准时，应明确你关注的核心指标：

准确性？持久性？还是灵活性？
单任务表现还是综合能力？
短期效果还是长期演化？

七、Agent记忆的未来方向

论文最后总结了7个值得关注的前沿方向，我认为每个都可能改变Agent产品的形态：

方向1：生成式记忆

传统做法：检索已有记忆未来方向：生成缺失的记忆

想象当Agent发现记忆中没有相关信息时，它不会简单地说不知道，而是基于现有知识合理推测并生成一个记忆。

这类似于人类的联想记忆，比如你忘了朋友的生日，但能从其他线索推断出大概时间。

方向2：自动记忆管理

传统做法：开发者手动配置记忆策略未来方向：Agent自主决定记住什么、删除什么、改变什么

将记忆管理封装成Agent可调用的工具，让Agent自行学习什么该记、什么该忘、何时更新。

这将大大降低记忆系统的维护成本。

方向3：强化学习驱动的记忆优化

传统做法：手动设置记忆阈值和规则未来方向：用RL端到端优化记忆策略

让Agent通过强化学习自行探索最优的记忆管理策略，包括：

何时存储记忆
何时检索记忆
何时更新或遗忘记忆

方向4：多模态记忆融合

传统做法：以文本记忆为主未来方向：统一处理视频、音频、传感器等多模态数据

将所有模态信息映射到统一的embedding空间，支持跨模态记忆检索。

例如，你给Agent展示一段视频，之后可以用文字描述来回忆那段视频的内容。

方向5：多Agent共享记忆

传统做法：每个Agent独立维护记忆未来方向：多个Agent共享和交换记忆

但这里有个关键挑战：角色权限和隐私。

需要解决的问题：

什么记忆可以共享？
如何避免群体幻觉？
如何保护敏感信息？

方向6：世界模型记忆

传统做法：缓存历史交互帧未来方向：构建可查询的状态模拟器

不只是记住发生了什么，而是构建一个能预测将会发生什么的世界模型。

这让Agent能在记忆中进行假设推理，比如"如果我当时那样做会怎样？"

方向7：可信记忆

传统做法：记忆的安全性常被忽视未来方向：支持差分隐私、可验证遗忘、审计日志

这在企业级应用中尤其重要：

差分隐私：防止记忆泄露用户隐私
可验证遗忘：证明某些数据已被完全擦除
审计日志：追踪记忆的修订历史
GDPR合规：支持用户数据擦除权

这7个方向并非孤立，未来的Agent记忆系统很可能是这些技术的综合体现。

八、给AI产品经理的三条建议

看完这篇论文，结合我自己的实践经验，想给大家三条建议：

1. 记忆不是可选项，而是必需品

如果你的Agent产品涉及：

多轮对话
个性化服务
持续学习
复杂任务规划

那么记忆系统不是锦上添花，而是基础设施。

不要等到用户抱怨对话不连贯时才想起它。

2. 选择记忆方案要务实

不要盲目追求最新最炫的技术，而是根据实际需求选择：

考虑这些问题：

你的场景需要多长的记忆保留？
对可解释性要求多高？
记忆更新频率如何？
用户规模和数据量有多大？
对响应延迟有何限制？

决策框架：

以短期记忆为主 → 工作记忆+潜变量形式
个性化服务 → 事实记忆+Token级形式
持续学习 → 经验记忆+参数化形式
复杂推理 → 多层次Token级记忆

3. 记忆的演化与遗忘同样重要

很多团队只关注如何存储和检索记忆，却忽视了记忆的生命周期管理。

实操建议：

定期清理过期记忆

设置合理的TTL(过期时间)
基于访问频率进行冷热分层
及时删除冲突或错误的记忆

建立记忆更新机制

新信息覆盖旧信息的规则
冲突信息的仲裁策略
用户反馈的快速修正通道

监控记忆质量

定期检查记忆准确性
追踪记忆导致的错误率
建立记忆的A/B测试机制

考虑隐私与合规

敏感信息加密存储
支持用户删除个人数据
保留审计日志

九、总结

Agent的记忆系统是一个庞大而精密的工程，涉及形态设计、功能规划、动态管理等多个维度。

给大家提供一个完整的分析框架：

关键要点回顾：

为什么需要记忆：解决LLM金鱼脑问题，Agent必须有外部记忆系统
记忆的形态：Token级、参数化、潜变量三种形态
记忆的功能：事实记忆、经验记忆、工作记忆
记忆的动态性：形成→演化→检索的完整生命周期
工具与评估：20+开源框架，30+评估基准
未来方向：生成式、自动化、RL驱动、多模态等7大趋势

作为AI产品经理，我们不需要实现所有技术细节，但必须理解记忆系统的核心逻辑，才能设计出真正有竞争力的Agent产品。

记忆，让Agent从一次性工具转变为持续的伙伴。

最后

对于正在迷茫择业、想转行提升，或是刚入门的程序员、编程小白来说，有一个问题几乎人人都在问：未来10年，什么领域的职业发展潜力最大？

答案只有一个：人工智能（尤其是大模型方向）

当下，人工智能行业正处于爆发式增长期，其中大模型相关岗位更是供不应求，薪资待遇直接拉满——字节跳动作为AI领域的头部玩家，给硕士毕业的优质AI人才（含大模型相关方向）开出的月基础工资高达5万—6万元；即便是非“人才计划”的普通应聘者，月基础工资也能稳定在4万元左右。

再看阿里、腾讯两大互联网大厂，非“人才计划”的AI相关岗位应聘者，月基础工资也约有3万元，远超其他行业同资历岗位的薪资水平，对于程序员、小白来说，无疑是绝佳的转型和提升赛道。

对于想入局大模型、抢占未来10年行业红利的程序员和小白来说，现在正是最好的学习时机：行业缺口大、大厂需求旺、薪资天花板高，只要找准学习方向，稳步提升技能，就能轻松摆脱“低薪困境”，抓住AI时代的职业机遇。

如果你还不知道从何开始，我自己整理一套全网最全最细的大模型零基础教程，我也是一路自学走过来的，很清楚小白前期学习的痛楚，你要是没有方向还没有好的资源，根本学不到东西！

下面是我整理的大模型学习资源，希望能帮到你。

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有，跟着老师学习事半功倍。

在这里插入图片描述

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

在这里插入图片描述

4、 AI大模型最新行业报告

2026最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

在这里插入图片描述

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

收藏！Java开发者转型大模型开发：优势、路径与实践（小白/程序员必看）

2048 AI社区

论文救星！毕业之家AI 辅助写作让你轻松避开查重陷阱

【摘要】"毕业之家"是专为国内毕业生设计的一站式论文辅助工具，2026年实测数据显示其具备三大核心优势：学科分类改写模型适配高校查重规则，初稿AI率<5%、查重率<15%；内置1200+高校模板实现格式自动化；支持真实文献引用。建议与PaperRed组合使用，前者快速搭建论文框架（8000字/58分钟），后者深度降重（重复率可降至8.77%）。该组合尤其适合人文社科

2048 AI社区

Azure OpenAI GPT-5-codex 配置全攻略

若使用非默认部署 ID，通过。

2048 AI社区

所有评论(0)

查看更多评论

爱编程的小辞

@l01011_

已为社区贡献523条内容

收藏必备：小白/程序员快速入门AI Agent记忆系统（北大NUS最新论文解读）

爱编程的小辞

一、为什么Agent需要记忆系统？

二、Agent记忆的三大核心问题

1. 形成(Formation)：记忆如何产生？

2. 进化(Evolution)：记忆如何演变？

3. 检索(Retrieval)：如何调用记忆？

三、记忆的三种形态：不只是长短期记忆

形态1：Token级记忆（人类可读）

形态2：参数化记忆（写入参数）

形态3：潜变量记忆（机器可读）

四、记忆的三大功能：Agent到底该记住什么？

功能1：事实记忆(Factual Memory)

功能2：经验记忆(Experiential Memory)

功能3：工作记忆(Working Memory)

五、市场上成熟的记忆框架有哪些？

1. MemGPT：分层记忆管理

2. Mem0：图+向量混合存储

3. Zep：时序知识图谱

4. MemOS：树结构+记忆立方体

5. Pinecone：向量数据库优化

六、如何评估记忆系统的质量？

直接评估：专门测试记忆能力

间接评估：从任务表现反推记忆质量

特色维度评估

七、Agent记忆的未来方向

方向1：生成式记忆

方向2：自动记忆管理

方向3：强化学习驱动的记忆优化

方向4：多模态记忆融合

方向5：多Agent共享记忆

方向6：世界模型记忆

方向7：可信记忆

八、给AI产品经理的三条建议

1. 记忆不是可选项，而是必需品

2. 选择记忆方案要务实

3. 记忆的演化与遗忘同样重要

九、总结

最后

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

3、 入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

4、 AI大模型最新行业报告

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

3、这些资料真的有用吗？

所有评论(0)

爱编程的小辞

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）