AI Agent 记忆系统设计：短期记忆与长期记忆

本质上，目前的LLM只是一个无状态的函数。输入，计算，输出，结束。每一次交互，对它来说都是初见。

小马不会过河

261人浏览 · 2026-03-04 19:25:16

小马不会过河 · 2026-03-04 19:25:16 发布

本质上，目前的LLM只是一个无状态的函数。输入，计算，输出，结束。每一次交互，对它来说都是初见。

要让工具进化为Agent，必须引入状态。这个状态，就是记忆。没有记忆，智能就无法在时间维度上积累；没有积累，就没有复利。

构建记忆系统，就是赋予AI在时间长河中航行的能力。

记忆的本质

在计算机科学里，记忆就是状态管理。LLM天生无状态。为了延续，必须外挂存储。

我们通常把这个外挂分为两类：

短期记忆：像内存，快，贵，存当下。
长期记忆：像硬盘，慢，廉，存历史。

短期记忆

短期记忆，即 Prompt 中的 Context（上下文）。是 Agent 当前的工作台，摆着正在处理的任务，和刚说的话。

容量限制

强如GPT-4，上下文窗口也有极限（如128k token）。更要命的是成本和延迟。

对话越长，烧的钱越多，反应越慢。人不能把一辈子的事都塞进大脑前额叶，AI也一样。

优化策略

我们需要对短期记忆进行治理，核心在于压缩与丢弃。

短期记忆优化策略

滑动窗口

只保留最近的N轮对话，旧的直接扔掉。

简单，可控。但健忘，容易丢掉早期的关键信息。

摘要压缩

当对话超出阈值，触发后台任务，让LLM对历史进行摘要。将你好，我叫小明，我是一名程序员… 压缩为用户是小明，职业程序员。

省空间，留核心。但细节丢了，计算成本也上去了。

长期记忆

如果短期记忆是工作台，长期记忆就是无限扩容的图书馆。当用户问起上个月讨论的架构方案，滑动窗口早就把它丢了，这时候，需要去图书馆里翻书。

向量数据库

长期记忆的载体，不是MySQL，而是向量数据库 (Vector DB)。人类的记忆是模糊的、关联的。你记不住一句话的ASCII码，但你能记住它的语义。

Vector DB通过Embedding技术，将文本转化为高维向量。在这个高维空间里，苹果和水果离得很近，但苹果和汽车就离得很远。

AI记忆系统架构图

RAG机制

RAG（Retrieval Augmented Generation）是长对话的解决方案。

RAG流程图

当用户Query到来时：

感知：将Query转化为向量。
检索：在向量库中寻找距离最近的Top-K片段。
增强：将这些片段作为参考资料塞进Prompt。
生成：LLM基于参考资料回答。

这解决了记忆容量问题，也缓解了幻觉问题。

架构融合

孤立的短期或长期记忆都不够完善，智能，在于两者的流动。

记忆巩固

人睡觉时，会将短期记忆固化为长期记忆，Agent 也需要这个过程。

记忆巩固流程图

交互时，全靠短期记忆抗。会话结束了，就提取关键信息。接着入库，把信息向量化，存进长期记忆。下次唤醒，先查库，构建好上下文，再开口。

写在最后

记忆不是存储，而是选择。遗忘和记住同样重要。如果记住了所有噪音，就听不见信号。

过滤掉平庸的日常，留下有价值的数据。这才是 Agent 的核心。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～