本文系统介绍了RAG技术的演变历程,从Naive RAG到最新的Agentic RAG架构。详细解析了各阶段的技术特点、实现方式和解决的核心问题,包括查询调整、上下文检索、缓存增强生成等关键技术,以及Agentic RAG中引入的数据源选择和答案检查调整等创新组件,为构建高效可靠的大语言模型应用提供了完整的技术路线图。

1、Naive RAG 架构剖析

2022年底,ChatGPT 的出现让大语言模型(LLMs)变得非常流行。差不多同一时间,一种叫做“检索增强生成”(RAG)的技术也出现了。这个技术主要是为了解决一些大语言模型本身存在的问题,比如:

  1. 有时会“胡说八道”,也就是生成一些不准确或不真实的信息。
  2. 能处理的信息量有限,就像一个人一次只能记住这么多东西。
  3. 无法访问一些非公开的数据,比如公司内部的资料。
  4. 无法自动获取模型训练之后的新信息,如果要更新知识,就需要重新训练模型,这既耗时又耗力。

RAG 的最简单架构设计的实现方式是这样的:

预处理阶段:

  1. 把整个知识库的文本资料分割成一个个小块,每个小块都是一段可以查询的文本。这些资料可能来自不同的地方,比如:公司内部的文档、PDF 报告等。
  2. 用一个特殊的模型(嵌入模型)把这些文本块转换成一种特殊的代码(向量嵌入)。
  3. 把这些代码存到一个特殊的数据库(向量数据库)里,同时保存每个向量对应的原始文本和指向向量的链接。

检索阶段:

  1. 在向量数据库里,用同一个嵌入模型处理知识库中的文档内容和用户的问题,确保查询和知识库中的信息能够准确匹配。
  2. 在向量数据库的索引上运行查询,选择要检索的向量数量,这决定了你将用多少上下文信息来回答查询。
  3. 向量数据库会执行一个搜索,找到最相似的向量,然后把这些向量映射回它们对应的原始文本块。
  4. 把问题和检索到的上下文文本块一起通过一个提示词传递给大语言模型,告诉模型只用这些上下文来回答这个问题。这并不意味着不需要设计好的提示词–你还需要确保模型返回的答案符合预期,比如:如果检索到的上下文中没有相关信息,就不要编造答案。

2、Naive RAG 架构的模块组成

在搭建一个能用在实际工作(生产级)的 RAG 系统时,即使不使用什么高级技术,也要考虑很多会变化的部分(动态模块)。

检索部分:

  • 分块策略:决定怎么把用来提供额外信息的数据切成一块一块的。
  • 可以选择切小一点或大一点的块。
  • 可以用滑动窗口或固定窗口的方法来切。
  • 检索时,可以选择是否带上块的“亲戚”信息(父块/链接块),或者只用原始检索到的数据。
  • 嵌入模型:选择一个模型,把额外信息转换成一种特殊的向量(嵌入到 latent space),或者用这个模型从这种向量中检索信息。这里需要考虑上下文嵌入。
  • 向量数据库
  • 选择用哪种数据库。
  • 决定数据库放在哪里。
  • 考虑除了向量嵌入,还要存哪些额外信息(元数据),这些信息可以用来在检索前筛选和检索后过滤结果。
  • 确定如何构建数据库的索引。
  • 向量搜索
  • 选择用什么标准来衡量相似度。
  • 决定查询时是先看元数据还是先做近似最近邻(ANN)搜索。
  • 可以考虑混合搜索方案。
  • 启发式规则:在检索流程中应用一些基于经验的规则。
  • 根据文档的时间来调整重要性。
  • 对检索到的上下文进行去重,按多样性排序。
  • 检索时带上内容的原始来源信息。
  • 根据不同条件(比如:用户的查询意图、文档类型)对原始文本进行特别处理。

生成部分:

  • 大语言模型:为你的应用选择合适的大语言模型(LLM)。
  • 提示词工程:即使可以在提示词中加入上下文信息,也需要精心设计提示词,调整系统,以生成符合预期的输出,并防止被“越狱”(即防止模型生成不适当的内容)。

完成所有这些步骤后,我们才能搭建起一个能运行的 RAG 系统。

但不幸的是,这类系统往往难以真正解决实际问题。由于各种原因,这种系统的准确性可能并不高。

3、Naive RAG 架构设计的高级技术

为了提升 Naive RAG 系统的精确度,我们尝试了一些有效的方法:

查询调整 - 这里有几个技巧:

  • 查询重写:让大语言模型(LLM)改写原始问题,让它更适合用来检索信息。这可能包括修正语法错误,或者把问题简化成更直接的表述。
  • 查询扩展:让 LLM 对原始问题进行多次改写,生成多个不同的版本。然后,对每个版本都进行检索,以找到更多可能相关的信息。

重新排序 - 对初次检索出来的文档,使用比普通搜索更复杂的方法来重新排序。这通常需要用到更大型的模型,并且在检索阶段故意获取比实际需要更多的文档。重新排序和前面提到的查询扩展一起用效果最好,因为查询扩展通常能返回更多的数据。这个过程有点像我们在推荐系统中的做法。

微调嵌入模型 - 在某些领域(比如:医疗),如果用基础的嵌入模型来检索信息效果不好,你可能需要对嵌入模型进行定制化的微调。

接下来,我们再看看其他一些高级的 RAG 技术和架构。

4、上下文检索

上下文检索这个想法是 Anthropic 团队去年提出来的,主要是为了让用检索来加强生成的 AI 系统更精确、更靠谱。

我觉得上下文检索既简单又直接,而且效果确实不错。

下面是上下文检索怎么操作的:

预处理阶段:

  1. 用你选好的方法把文档切成一块一块的文本。
  2. 把每个文本块和整个文档一起放到一个提示词里。
  3. 在提示词里加上指示,让大语言模型(LLM)找出文本块在文档里的位置,并给它写个简短的介绍。然后把这个提示词放到 LLM 里。
  4. 把上一步做出来的介绍和原始文本块合在一起。
  5. 把这些合并好的数据放到一个 TF-IDF 嵌入器里。
  6. 再把数据放到一个基于 LLM 的嵌入模型里。
  7. 把步骤5和步骤6做出来的东西存到一个能快速搜索的数据库里。

检索阶段:

  1. 用用户的提问去找相关的介绍。用一种叫近似最近邻(ANN)的方法来做语义匹配,同时用 TF-IDF 索引来做精确搜索。
  2. 用排序融合技术把检索出来的结果合并、去重,然后选出前 N 个选项。
  3. 对上一步的结果重新排序,缩小到前 K 个选项。
  4. 把步骤3的结果和用户提问一起放到 LLM 里,生成最终的答案。

一些思考:

步骤3听起来(实际上也是)很费事,但是用一个叫提示词缓存的技术可以大大减少这个成本。

提示词缓存这个技术可以用在私有(闭源)模型上,也可以用在开源模型上。

5、缓存增强生成(Cache Augmented Generation)

2024年底,社交媒体上出现了一份引起轰动的白皮书,介绍了一种可能彻底改变 RAG(检索增强生成)的技术–CAG(缓存增强生成)。我们先了解一下 RAG,再简单看看 CAG:

  1. CAG 会把所有的外部预先信息计算好,存到大语言模型(LLM)的缓存里,并存到内存中。这个计算只需要做一次,之后就可以重复使用这个缓存,不需要重新计算。
  2. 把用户的提问和一些系统提示词和怎么使用缓存信息的提示词一起输入 LLM。
  3. 把 LLM 生成的答案返回给用户。完成后,清除缓存里的临时内容,只保留最初缓存的信息,这样 LLM 就可以准备生成下一个答案了。

CAG 承诺,通过把全部信息存在缓存里(而不是每次生成时只检索一部分),可以实现更精确的检索。但实际情况如何呢?

  • CAG 并不能解决因为信息太长而导致的不准确问题。
  • 在数据安全方面,CAG 有很多限制。
  • 对于大公司来说,把整个内部知识库都加载到缓存里几乎不可能。
  • 缓存不能动态更新,添加新数据非常困难。

实际上,自从很多 LLM 供应商引入了提示词缓存技术后,我们实际上已经在用 CAG 的一种变体了。我们的方法可以说是 CAG 和 RAG 的结合,具体操作如下:

数据预处理:

  1. 在 CAG 中,我们只使用变化不大的数据源。除了要求数据更新不频繁,我们还会考虑哪些数据源最常被查询用到。确定了这些信息后,我们才会把所有选定的数据预先计算好,存到 LLM 的缓存里,并缓存在内存中。这个计算只需要做一次,之后就可以多次使用,不需要重新计算。
  2. 对于 RAG,如果需要,我们可以把向量嵌入预先计算好,存到兼容的数据库里,供之后检索用。有时候对于RAG来说,只需要更简单的数据类型,常规数据库就足够了。

查询路径:

  1. 构建一个包含用户提问和系统提示词的提示词,明确指导大语言模型怎么利用缓存的信息和外部检索到的信息。
  2. 把用户提问转换成向量嵌入,用来在向量数据库里进行语义搜索,并从存储中检索相关数据。如果不需要语义搜索,就查询其他来源,比如实时数据库或互联网。
  3. 把步骤4中获取的外部信息整合到最终的提示词中,以提高回答的质量。
  4. 把最终生成的答案返回给用户。

接下来,我们将探讨最新的技术发展方向–Agentic RAG。

6、Agentic RAG 架构设计

Agentic RAG 引入了两个新的关键部分,目的是在处理复杂的用户问题时,让结果更加稳定可靠。

这两个部分是:

  1. 数据源选择(Data Source Routing)。
  2. 答案检查和调整(Reflection)。

下面我们看看这两个部分是怎么工作的。

Agentic RAG 的工作流程:

  1. 分析用户的问题:把用户的问题交给一个基于大语言模型的智能助手来分析。在这个阶段:
  • 原始问题可能会被改写,有时候需要改写好几次,最后变成一个或几个新的问题,送到下一步处理。
  • 智能助手会判断是否需要额外的数据来回答这个问题。这是它展现自主决策能力的第一步。
  1. 如果需要其他数据,就会开始检索步骤,这时会进行数据源选择。系统里可以预先设置一个或多个数据集,智能助手可以自己选择哪个数据源最适合当前的问题。比如:
  • 实时的用户数据(比如:用户现在的位置)。
  • 用户可能感兴趣的内部文件。
  • 网络上的公开数据。
  1. 一旦从多个数据源中检索到数据,我们就会像在普通的 RAG 中一样对这些数据进行重新排序。这也是一个关键步骤,因为不同存储技术的数据源都可以整合到这个 RAG 系统中。检索过程的复杂性都被智能助手用的工具所隐藏。
  2. 尝试直接用大语言模型生成答案(可能是一个答案,也可能是多个答案,或者是一组操作指令)。这个过程可以在第一轮就完成,或者在答案检查和调整之后进行。
  3. 对生成的答案进行检查,总结并评估它们的正确性和相关性:
  • 如果智能助手认为答案已经很好,就直接返回给用户。
  • 如果智能助手觉得答案还需要改进,就会尝试重新改写用户的问题,并重复这个生成循环。这是 Agentic RAG 和 Naive RAG 的第二个主要区别。

最近,Anthropic 的开源项目 MCP,将会大大推动 Agentic RAG 的开发。

7、总结

我们已经回顾了检索增强生成(RAG)技术的发展过程。RAG 技术不仅没有过时,而且我认为它在未来还会继续发展。掌握这些技术架构,并知道什么时候该用哪种方案,会是一笔很值得的投资。

通常来说,方案越简单越好,因为系统的复杂性增加会带来新的挑战。一些新出现的挑战包括:

  • 评估整个系统从开始到结束的性能变得困难。
  • 多次调用大语言模型导致整个过程的延迟变长。
  • 运营成本也随之增加。

总之,虽然 RAG 技术在不断进步,但我们在选择和应用时,还是需要考虑到这些新挑战。

如何从零学会大模型?小白&程序员都能跟上的入门到进阶指南

当AI开始重构各行各业,你或许听过“岗位会被取代”的焦虑,但更关键的真相是:技术迭代中,“效率差”才是竞争力的核心——新岗位的生产效率远高于被替代岗位,整个社会的机会其实在增加。

但对个人而言,只有一句话算数:
“先掌握大模型的人,永远比后掌握的人,多一次职业跃迁的机会。”

回顾计算机、互联网、移动互联网的浪潮,每一次技术革命的初期,率先拥抱新技术的人,都提前拿到了“职场快车道”的门票。我在一线科技企业深耕12年,见过太多这样的案例:3年前主动学大模型的同事,如今要么成为团队技术负责人,要么薪资翻了2-3倍。

深知大模型学习中,“没人带、没方向、缺资源”是最大的拦路虎,我们联合行业专家整理出这套 《AI大模型突围资料包》,不管你是零基础小白,还是想转型的程序员,都能靠它少走90%的弯路:

  • ✅ 小白友好的「从零到一学习路径图」(避开晦涩理论,先学能用的技能)
  • ✅ 程序员必备的「大模型调优实战手册」(附医疗/金融大厂真实项目案例)
  • ✅ 百度/阿里专家闭门录播课(拆解一线企业如何落地大模型)
  • ✅ 2025最新大模型行业报告(看清各行业机会,避免盲目跟风)
  • ✅ 大厂大模型面试真题(含答案解析,针对性准备offer)
  • ✅ 2025大模型岗位需求图谱(明确不同岗位需要掌握的技能点)

所有资料已整理成包,想领《AI大模型入门+进阶学习资源包》的朋友,直接扫下方二维码获取~

在这里插入图片描述

① 全套AI大模型应用开发视频教程:从“听懂”到“会用”

不用啃复杂公式,直接学能落地的技术——不管你是想做AI应用,还是调优模型,这套视频都能覆盖:

  • 小白入门:提示工程(让AI精准输出你要的结果)、RAG检索增强(解决AI“失忆”问题)
  • 程序员进阶:LangChain框架实战(快速搭建AI应用)、Agent智能体开发(让AI自主完成复杂任务)
  • 工程落地:模型微调与部署(把模型用到实际业务中)、DeepSeek模型实战(热门开源模型实操)

每个技术点都配“案例+代码演示”,跟着做就能上手!

在这里插入图片描述

课程精彩瞬间

在这里插入图片描述

② 大模型系统化学习路线:避免“学了就忘、越学越乱”

很多人学大模型走弯路,不是因为不努力,而是方向错了——比如小白一上来就啃深度学习理论,程序员跳过基础直接学微调,最后都卡在“用不起来”。

我们整理的这份「学习路线图」,按“基础→进阶→实战”分3个阶段,每个阶段都明确:

  • 该学什么(比如基础阶段先学“AI基础概念+工具使用”)
  • 不用学什么(比如小白初期不用深入研究Transformer底层数学原理)
  • 学多久、用什么资料(精准匹配学习时间,避免拖延)

跟着路线走,零基础3个月能入门,有基础1个月能上手做项目!

img

③ 大模型学习书籍&文档:打好理论基础,走得更稳

想长期在大模型领域发展,理论基础不能少——但不用盲目买一堆书,我们精选了「小白能看懂、程序员能查漏」的核心资料:

  • 入门书籍:《大模型实战指南》《AI提示工程入门》(用通俗语言讲清核心概念)
  • 进阶文档:大模型调优技术白皮书、LangChain官方中文教程(附重点标注,节省阅读时间)
  • 权威资料:斯坦福CS224N大模型课程笔记(整理成中文,避免语言障碍)

所有资料都是电子版,手机、电脑随时看,还能直接搜索重点!

在这里插入图片描述

④ AI大模型最新行业报告:看清机会,再动手

学技术的核心是“用对地方”——2025年哪些行业需要大模型人才?哪些应用场景最有前景?这份报告帮你理清:

  • 行业趋势:医疗(AI辅助诊断)、金融(智能风控)、教育(个性化学习)等10大行业的大模型落地案例
  • 岗位需求:大模型开发工程师、AI产品经理、提示工程师的职责差异与技能要求
  • 风险提示:哪些领域目前落地难度大,避免浪费时间

不管你是想转行,还是想在现有岗位加技能,这份报告都能帮你精准定位!

在这里插入图片描述

⑤ 大模型大厂面试真题:针对性准备,拿offer更稳

学会技术后,如何把技能“变现”成offer?这份真题帮你避开面试坑:

  • 基础题:“大模型的上下文窗口是什么?”“RAG的核心原理是什么?”(附标准答案框架)
  • 实操题:“如何优化大模型的推理速度?”“用LangChain搭建一个多轮对话系统的步骤?”(含代码示例)
  • 场景题:“如果大模型输出错误信息,该怎么解决?”(教你从技术+业务角度回答)

覆盖百度、阿里、腾讯、字节等大厂的最新面试题,帮你提前准备,面试时不慌!

在这里插入图片描述

以上资料如何领取?

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

为什么现在必须学大模型?不是焦虑,是事实

最近英特尔、微软等企业宣布裁员,但大模型相关岗位却在疯狂扩招

  • 大厂招聘:百度、阿里的大模型开发岗,3-5年经验薪资能到50K×20薪,比传统开发岗高40%;
  • 中小公司:甚至很多传统企业(比如制造业、医疗公司)都在招“会用大模型的人”,要求不高但薪资可观;
  • 门槛变化:不出1年,“有大模型项目经验”会成为很多技术岗、产品岗的简历门槛,现在学就是抢占先机。

风口不会等任何人——与其担心“被淘汰”,不如主动学技术,把“焦虑”变成“竞争力”!

在这里插入图片描述

在这里插入图片描述

最后:全套资料再领一次,别错过这次机会

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

加粗样式

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐