AI Agent 记忆系统设计：短期记忆与长期记忆

本文探讨了如何通过构建记忆系统将LLM从无状态函数进化为智能Agent。文章指出，记忆分为短期记忆（上下文窗口）和长期记忆（向量数据库），并分析了各自的优化策略。短期记忆采用滑动窗口和摘要压缩，长期记忆通过RAG机制实现检索增强。最终提出记忆巩固机制，使两种记忆能动态流动，强调智能记忆的关键在于有价值信息的筛选而非全盘存储。文章还穿插了AI行业发展趋势和人才培养的广告内容。

程序员朱鹏

593人浏览 · 2026-01-06 23:27:45

程序员朱鹏 · 2026-01-06 23:27:45 发布

本质上，目前的LLM只是一个无状态的函数。输入，计算，输出，结束。每一次交互，对它来说都是初见。

要让工具进化为Agent，必须引入状态。这个状态，就是记忆。没有记忆，智能就无法在时间维度上积累；没有积累，就没有复利。

构建记忆系统，就是赋予AI在时间长河中航行的能力。

记忆的本质

在计算机科学里，记忆就是状态管理。LLM天生无状态。为了延续，必须外挂存储。

我们通常把这个外挂分为两类：

短期记忆：像内存，快，贵，存当下。
长期记忆：像硬盘，慢，廉，存历史。

短期记忆

短期记忆，即 Prompt 中的 Context（上下文）。是 Agent 当前的工作台，摆着正在处理的任务，和刚说的话。

容量限制

强如GPT-4，上下文窗口也有极限（如128k token）。更要命的是成本和延迟。

对话越长，烧的钱越多，反应越慢。人不能把一辈子的事都塞进大脑前额叶，AI也一样。

最近两年，大家都可以看到AI的发展有多快，我国超10亿参数的大模型，在短短一年之内，已经超过了100个，现在还在不断的发掘中，时代在瞬息万变，我们又为何不给自己多一个选择，多一个出路，多一个可能呢？

与其在传统行业里停滞不前，不如尝试一下新兴行业，而AI大模型恰恰是这两年的大风口，整体AI领域2025年预计缺口1000万人，其中算法、工程应用类人才需求最为紧迫！

学习AI大模型是一项系统工程，需要时间和持续的努力。但随着技术的发展和在线资源的丰富，零基础的小白也有很好的机会逐步学习和掌握。【点击蓝字获取】

优化策略

我们需要对短期记忆进行治理，核心在于压缩与丢弃。

短期记忆优化策略

滑动窗口

只保留最近的N轮对话，旧的直接扔掉。

简单，可控。但健忘，容易丢掉早期的关键信息。

摘要压缩

当对话超出阈值，触发后台任务，让LLM对历史进行摘要。将你好，我叫小明，我是一名程序员… 压缩为用户是小明，职业程序员。

省空间，留核心。但细节丢了，计算成本也上去了。

长期记忆

如果短期记忆是工作台，长期记忆就是无限扩容的图书馆。当用户问起上个月讨论的架构方案，滑动窗口早就把它丢了，这时候，需要去图书馆里翻书。

向量数据库

长期记忆的载体，不是MySQL，而是向量数据库 (Vector DB)。人类的记忆是模糊的、关联的。你记不住一句话的ASCII码，但你能记住它的语义。

Vector DB通过Embedding技术，将文本转化为高维向量。在这个高维空间里，苹果和水果离得很近，但苹果和汽车就离得很远。

AI记忆系统架构图

RAG机制

RAG（Retrieval Augmented Generation）是长对话的解决方案。

RAG流程图

当用户Query到来时：

感知：将Query转化为向量。
检索：在向量库中寻找距离最近的Top-K片段。
增强：将这些片段作为参考资料塞进Prompt。
生成：LLM基于参考资料回答。

这解决了记忆容量问题，也缓解了幻觉问题。

架构融合

孤立的短期或长期记忆都不够完善，智能，在于两者的流动。

记忆巩固

人睡觉时，会将短期记忆固化为长期记忆，Agent 也需要这个过程。

记忆巩固流程图

交互时，全靠短期记忆抗。会话结束了，就提取关键信息。接着入库，把信息向量化，存进长期记忆。下次唤醒，先查库，构建好上下文，再开口。

写在最后

记忆不是存储，而是选择。遗忘和记住同样重要。如果记住了所有噪音，就听不见信号。

过滤掉平庸的日常，留下有价值的数据。这才是 Agent 的核心。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

LangChain4j 名字的寓意

LangChain4j 名字的寓意。

2048 AI社区

langchain_experimental.plan_and_execute的三个组件：PlanAndExecute、load_chat_planner、load_agent_executor

摘要：LangChain 实验性模块 plan_and_execute 采用“规划-执行”范式，将复杂任务拆解为规划与执行两个独立阶段。核心组件包括 PlanAndExecute（协调器）、load_chat_planner（任务拆解）和 load_agent_executor（步骤执行）。Planner 生成结构化步骤列表，Executor 按序调用工具执行，适用于多步骤任务场景（如库存查询→定