RAG 的进化之路：解锁 AI Agent 的 “记忆密码”

静态的开卷考试。解决了LLM的知识局限性（只读聪明的研究助理。解决了RAG 1.0检索过程太死板的问题（智能读会学习的私人管家。解决了Agent无法记住新信息、无法实现个性化的问题（智能读 + 智能写所以，RAG远没有“已死”，它们三者将共同存在，构成更强大的「知识+记忆+推理」的一体化代理，支撑着Agent走得更远。

编程唐小宝

211人浏览 · 2025-11-12 18:17:05

编程唐小宝 · 2025-11-12 18:17:05 发布

“RAG是不是已经过时了？是不是已死？”

“Agentic RAG和Agent Memory到底有什么区别？”

“Agent Memory究竟是啥？它和RAG是替代关系吗？”

这篇文章就是我在解决以上疑惑过程中所整理出来的，会分为以下四个部分，希望能够给你们带来新的思考～☺️

RAG->Agentic RAG->Agent Memory
以智能客服为例
这三者的关系
Agent Memory，没那么简单

RAG->Agentic RAG->Agent Memory

1、RAG 1.0：Naïve RAG

首先，RAG并没有死，**它是这一切的基石。**我们先回忆一下朴素RAG（Naïve RAG）是：

LLM已有知识是旧的（训练完就定了），而且它不知道具体某公司的内部文档。RAG就是相当于给它一本参考书（比如公司的知识库），通过检索外部知识来增强LLM的回答。

👇 工作流如下：

（线下）先把你的文档资料“存入”知识库（比如向量数据库）。
（线上）用户提问 -> 系统必须先去知识库里搜相关资料（单步检索）-> 把“搜到的资料 + 用户问题”一起扔给 LLM -> LLM 参考着回答。

这就好比开卷考试，LLM每回答一个问题，就必须翻一次书。

💡 局限性：

这种 RAG 是静态单步的。它有些傻，不管问题复不复杂，都只会翻一次书，而且是只读的。它无法在对话中学习新东西。

2、RAG 2.0：Agentic RAG

Agentic RAG是RAG的第一次重大升级，核心是引入了自治智能体。LLM不再是被动的，它变成了一个会主动思考、会规划、会用工具的研究助理。

👇 工作流如下：

1.用户提问（比如：“帮我查查苹果公司最近的财报，并总结下市场反应。”）
2.Agent（LLM）开始思考和规划：“OK，这个任务得分两步：（1）搜财报；（2）搜市场反应。”
3.Agent调用工具（比如搜索）：执行“搜索苹果财报”。
4.Agent反思：“嗯，财报拿到了。现在我需要执行第二步。”
5.Agent再次调用工具：执行“搜索市场对苹果财报的反应”。
6.最后，Agent 汇总所有（多轮检索到的）信息，生成最终答案。

和 RAG 1.0 的核心区别：

RAG 1.0 是「必须搜，搜一次」。
Agentic RAG是「**Agent 自己决定搜不搜、搜几次、用什么工具搜」。**这种检索是动态的、多步的。

💡 但是请注意：

Agentic RAG核心解决的是读的问题。它让读变得更智能、更动态了。可它本质上还是只读的（知识库仍然是离线预加载的）。它在对话中了解到的新信息（比如你的偏好），对话结束了就忘了。

3、RAG 3.0?：Agent Memory

这时，就需要Agent Memory登场了。

如果说Agentic RAG是一个出色的研究助理（会查资料），那么Agent Memory就是一个能记住你、持续学习的私人管家。

那么，Agent Memory到底是什么呢？
核心定义：Agent Memory（智能体记忆）是指智能体具备调用工具读写外部知识库的能力，让模型能在对话中记住新的信息。

👉 和 Agentic RAG 最大的区别就一个字：写。

Agent Memory不仅有搜索工具（读），它还有了存储/写入/更新工具。

👇 工作流如下：

用户：“我下周要去上海出差，帮我规划下。”
Agent（带记忆）：
（调用工具规划...）“好的，已规划。顺便问下，你有什么饮食偏好吗？”
用户：“哦对了，我海鲜过敏，千万别安排海鲜。”
Agent（调用写工具）：
（思考：“这是个重要信息！”）-> 调用WriteTool.store("用户偏好：海鲜过敏") -> 将这条信息存入外部记忆库。
👇 下次对话时
用户： “帮我推荐几个北京的餐厅。”
Agent（调用“读”工具）：
（思考：“我需要推荐餐厅，先查查用户有啥偏好？”）-> 调用SearchTool.search("用户偏好") -> 检索到“用户偏好：海鲜过敏”。
Agent（生成）： “好的，已为您筛选了北京的几家餐厅，并自动排除了所有海鲜餐厅。”

通过动态的「读写」外部记忆，实现持续学习和个性化。它使LLM成为有长期记忆的智能体，能跨会话累积经验。

举例：一个智能客服的进化史

阶段一：Naïve RAG（基础问答机器人）

在这个阶段，客服机器人就像一个只会照着说明书念的员工。它的知识库是静态的（比如产品手册、退货政策），并且它总是先查资料再回答。

知识库（离线准备）：

文档 A：退货政策
文档 B：产品说明书（型号 X、Y、Z）
文档 C：发货时间表

用户提问：“你好，我想退货。”
👇 Naïve RAG的工作流：
1.（强制）检索：系统自动将“我想退货”作为关键词，去知识库里搜索。
2.找到内容：命中了“文档 A：退货政策”，检索到相关片段：“...如需退货，请在订单页面点击‘申请售后’，并在7天内寄回...”
3.生成答案：LLM将“检索到的内容”和“用户问题”结合起来。
4.客服回复：“您好，根据我们的政策，如需退货，请在订单页面点击‘申请售后’，并在7天内寄回...”

💡 局限性

**答非所问：**如果用户问：“我的订单到哪了？” LLM去静态知识库里检索，找不到实时物流信息，它可能会回复一个关于标准发货时间的通用答案（比如“我们通常在48小时内发货”），而不是用户想要的实时状态。

无法处理多任务：用户问：“我的A订单什么状态？顺便帮我看看B产品有没有货？” 它会很困惑，可能只能回答第一个问题，或者两个都答不好。

阶段二：Agentic RAG（多功能工具助理）

在这个阶段，客服机器人升级成了一个聪明的助理。它拥有多种工具，并且会思考该用哪个工具、甚至是否需要用工具。但它的知识库本身仍然是只读的。

可用的工具：

KnowledgeBaseSearch：搜索静态的退货政策、产品说明书。
OrderTrackingAPI：实时查询订单物流状态。
InventoryCheckAPI：实时查询商品库存。

用户提问：“我的 A 订单到哪了？顺便帮我看看 B 产品有没有货？”
👇 Agentic RAG 的工作流：
思考（LLM as Agent）：“用户有两个问题。第一个是关于订单状态，我需要用OrderTrackingAPI。第二个是关于库存，我需要用
InventoryCheckAPI。”
（动态）调用工具 1：
Call: OrderTrackingAPI(order_id="A")
Return: {"status": "已签收", "time": "2025-11-10 09:30"}
（动态）调用工具 2：
Call: InventoryCheckAPI(product_id="B")
Return: {"stock": 120, "status": "有货"}
整合答案：LLM拿到了两份工具返回的实时数据。
客服回复：“您好，我帮您查到：1. 您的订单 A 已于今天上午 9:30 签收。2. 您查询的产品 B 目前有 120 件库存，可以下单。”

💡 局限性

没有记忆： 如果用户接着说：“太好了。以后请叫我‘晨光’，并且我只在工作日收货。”

这个Agentic RAG客服会说：“好的。” 但下次对话时它会忘得一干二净，因为它没有写入新信息的能力。它只是一个出色的信息查询员。

阶段三：Agent Memory（专属私人管家）

这是目前最先进的阶段。客服机器人不仅拥有Agentic RAG的所有能力（会用工具），还额外获得了写入工具。它开始学习和记忆用户的偏好和历史。

可用的工具：

（读）KnowledgeBaseSearch
（读）OrderTrackingAPI
（读）InventoryCheckAPI
（读/写）MemoryTools.Search(user_id)
（读/写）MemoryTools.Write(user_id, info)

【场景A】用户提出偏好
用户提问：“以后请叫我‘晨光’，并且我只在工作日收货。”
👇 Agent Memory的工作流：
思考（LLM as Agent）：“用户提出了两个关键偏好。我需要把它们‘记下来’。”
（动态）调用工具（写入记忆）：
Call: MemoryTools.Write(user_id="123", info="Nickname: 晨光")
Call: MemoryTools.Write(user_id="123", info="DeliveryPreference: workdays_only")
客服回复：“好的，晨光。我记住了，以后会尽量安排在工作日为您配送。”
【场景B】几天后的下一次对话
用户提问：“你好，帮我查下我上次买的那个耳机型号。”
👇 Agent Memory的工作流：
思考（LLM as Agent）：“用户开始了新对话。我应该先‘回忆’一下关于她的信息。”
（动态）调用工具（读取记忆）：
Call: MemoryTools.Search(user_id="123")
Return: ["Nickname: 晨光", "DeliveryPreference: workdays_only"]
（动态）调用工具（读取订单历史）：
Call: OrderTrackingAPI(user_id="123", history_limit=1, type="headphones")
整合答案：LLM拿到了“记忆”和“订单数据”。
客服回复：“您好，晨光！我查到您上次购买的耳机型号是M-Tech降噪耳机Pro。需要我为您做些什么吗？”

灵魂拷问：三者到底什么关系？

终于可以回答开头的问题了。

1、RAG 死了吗？

没有。RAG 是地基。Agentic RAG把RAG变成了它工具箱里一个（更智能的）工具；Agent Memory则在Agentic RAG的基础上，又增加了一个写入工具。

2、Agentic RAG vs Agent Memory？

Agentic RAG = 动态只读。重点在Agent如何更聪明地检索信息。

Agent Memory = 动态读+动态写。重点在Agent如何管理信息。

👉 结论：Agent Memory吸收RAG能力，把它当作记忆读写的一部分工具来用，但不会废弃RAG，尤其在涉及“海量文档检索”或“信息密度很高”的企业场景下，RAG的向量检索仍然是不可替代的底层能力。

Agent Memory，没那么简单

那Agent Memory不就是加个写入吗？🤔

其实，真正的挑战不在于写入这个动作本身，而在于写入之后带来的一整套复杂的记忆管理难题。

1、决定记什么——写入策略

难题：“你好”、“哈哈”、“嗯”这种无关紧要的词语不能全记下来，如果无序地记录一切，会导致记忆冗余和上下文污染。

👉 必须有智能的触发式写入

比如，Agent必须学会判断什么是重要事实（如“海鲜过敏”、“称呼：晨光”）或者采用摘要写入机制，只存储对话摘要，而非全部记录。

2、决定怎么读——读取策略

**难题：**用户的记忆库越来越大，当用户问“老样子”时，Agent如何在成千上万条记忆中，精准找出“老样子”指的是“拿铁少冰”还是“周五下午开会”？

👉 这需要高效的检索

比如结合向量语义检索、重要性评分、新近度评分等。

斯坦福的Generative Agents研究提出了「新近度+重要性+相关性」的三重检索评分机制。

3、决定何时忘——遗忘策略

难题：一个只记不忘的Agent是灾难性的。如果用户搬家了，Agent却还记着旧地址怎么办？如果信息冲突了怎么办？

👉 必须有适当的遗忘。常见的机制包括

时间衰减：临时信息（如验证码）到期自动删除。
使用频率：长期不用的记忆被淘汰（类似 LRU 策略）。
重要度：模型评估为不重要的信息被丢弃。
人工干预：允许用户“一键忘记”，满足 GDPR 等隐私法规。
…

4、隐私与安全——记忆的保险箱

**难题：**记住“晨光”是小事，如果Agent记住了用户的身份证号、银行卡、家庭住址呢？这带来了巨大的隐私合规风险和记忆错乱的可能。

👉 这需要严格的权限控制、数据加密以及用户授权机制。

🌟 总结一下～

从Agentic RAG到Agent Memory，最大的挑战，是从一个无状态的查询工具，进化为一个有状态的持久化系统。这个系统必须具备一套完整的写-读-忘循环策略，以确保记忆是高效、准确、安全且有用的。

总结：RAG在进化，而非死亡

现在，我们可以清晰地看到这条路线：

RAG 1.0 (Naïve RAG): 静态的开卷考试。解决了LLM的知识局限性（只读）。
RAG 2.0 (Agentic RAG): 聪明的研究助理。解决了RAG 1.0检索过程太死板的问题（智能读）。
RAG 3.0 (Agent Memory): 会学习的私人管家。解决了Agent无法记住新信息、无法实现个性化的问题（智能读 + 智能写）。

所以，RAG远没有“已死”，它们三者将共同存在，构成更强大的「知识+记忆+推理」的一体化代理，支撑着Agent走得更远。

AI时代，未来的就业机会在哪里？

答案就藏在大模型的浪潮里。从ChatGPT、DeepSeek等日常工具，到自然语言处理、计算机视觉、多模态等核心领域，技术普惠化、应用垂直化与生态开源化正催生Prompt工程师、自然语言处理、计算机视觉工程师、大模型算法工程师、AI应用产品经理等AI岗位。

在这里插入图片描述

掌握大模型技能，就是把握高薪未来。

那么，普通人如何抓住大模型风口？

AI技术的普及对个人能力提出了新的要求，在AI时代，持续学习和适应新技术变得尤为重要。无论是企业还是个人，都需要不断更新知识体系，提升与AI协作的能力，以适应不断变化的工作环境。

因此，这里给大家整理了一份《2025最新大模型全套学习资源》，包括2025最新大模型学习路线、大模型书籍、视频教程、项目实战、最新行业报告、面试题等，带你从零基础入门到精通，快速掌握大模型技术！

由于篇幅有限，有需要的小伙伴可以扫码获取！

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

为什么大家都在学AI大模型？

随着AI技术的发展，企业对人才的需求从“单一技术”转向 “AI+行业”双背景。企业对人才的需求从“单一技术”转向 “AI+行业”双背景。金融+AI、制造+AI、医疗+AI等跨界岗位薪资涨幅达30%-50%。

同时很多人面临优化裁员，近期科技巨头英特尔裁员2万人，传统岗位不断缩减，因此转行AI势在必行！

在这里插入图片描述

这些资料有用吗？

这份资料由我们和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

在这里插入图片描述

大模型全套学习资料已整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

四、解构 K8s 节点：核心组件在 Linux 上是如何协同工作的？

2048 AI社区

【每天一个AI小知识】：什么是训练集、验证集及测试集？

2048 AI社区

互联网CDN的降本增效

1.AI/ML的全面渗透：从缓存、调度到容量预测，机器学习正在成为优化平台的核心大脑，实现从“反应式”到“预测式”的转变。2.边缘计算：将计算能力下沉到更靠近用户的CDN节点，对内容进行预处理、个性化组装，减少回源流量，降低中心云压力。3.软硬件协同：使用智能网卡（SmartNIC）、FPGA等硬件卸载消耗CPU的任务（如压缩、加密、转发），释放服务器算力，间接降本。4.零信任与安全成本优化：DD