【必学收藏】大模型检索增强生成(RAG)全解析：从入门到精通

RAG技术通过连接LLM内部参数化知识与外部非参数化知识库，解决了大模型可能产生不准确信息、无法利用最新知识及专业领域知识缺失等问题。文章系统介绍了RAG的三大支柱（检索、生成、增强）、三大发展范式（Naive、Advanced、Modular RAG），以及预训练、微调和推理阶段的优化方法，并探讨了RAG评估框架和未来挑战，为研究者和工程师提供了全面的技术全景图和路线指南。近年来，大语言模型 (

m0_48891301

941人浏览 · 2025-11-27 13:37:23

m0_48891301 · 2025-11-27 13:37:23 发布

论文导读

近年来，大语言模型 (LLM) 凭借其强大的通用能力引发了广泛关注。尽管大语言模型在NLP领域表现出色，但是在许多方面仍然存在不足。例如，它们会产生不准确的信息，不能利用最新的信息生成响应。而且，在处理特定领域或者高度专业化的查询时可能会出现知识缺失的情况。

为了解决这些问题，语言模型可以采取半参数化方法，将非参数化的语料库与参数化模型相结合。这种方法被称为检索增强生成(Retrieval-Augmented Generation, RAG)。

图1 RAG研究的技术树

1、RAG系统的 “三大支柱”

RAG框架的三个主要组成部分是检索(Retrieval)、生成(Generation)和增强技术(Augmentation)，它们之间的协同作用是RAG技术的核心。

图2 应用于问答的RAG过程的代表性实例

检索 (Retrieval)：检索组件是RAG框架的基础，它负责从大量的外部数据源中检索与用户查询相关的信息。这一过程通常涉及以下步骤：

NO.1索引

将外部数据源中的文档分割成小块，并将其编码为向量表示，存储在数据库中以便快速检索。

NO.2 查询处理

接收用户查询，并将其转换为向量表示，以便与数据库中的文档向量进行比较。

NO.3 相似度计算

通过计算查询向量与数据库中文档向量之间的相似度，检索出最相关的文档块。

生成 (Generation)：生成组件是RAG框架的输出部分，它利用检索到的信息来生成回答或内容。这一过程包括：

NO.1 上下文整合

将检索到的文档块与原始查询合并，形成一个综合的上下文提示。

NO.2 内容生成

大型语言模型（LLM）根据综合上下文提示生成回答或内容，这个过程可能涉及多步对话、长篇文章生成等。

NO.3 后处理

对生成的内容进行必要的编辑和优化，以确保其准确性、连贯性和可读性。

增强技术 (Augmentation)：增强技术是RAG框架的改进部分，它旨在通过各种方法提高检索和生成过程的效果。这些技术包括：

NO.1 查询优化

改进用户的原始查询，使其更适合检索任务，例如通过查询扩展、转换和重写。

NO.2 文档优化

对检索到的文档进行重新排序、压缩或过滤，以减少噪声并突出重要信息。

NO.3 模型优化

通过微调、适配和其他技术来提高LLM的性能，使其更好地适应特定的任务和数据。

2、RAG系统的 “进化三部曲”

RAG技术的发展经历了三个主要的研究范式，分别是Naive RAG、Advanced RAG和Modular RAG。

图3 三种RAG范式的比较

每个范式都在前一个的基础上进行了改进和优化，以解决特定的问题和挑战。

图4 RAG与其他模型优化方法在“外部知识需求”和“模型适应需求”方面的比较

Naive RAG：最初形式，它的主要特点是简单的“检索 - 阅读”框架。

局限性：这一范式在检索质量（如低精度或低召回率）和生成质量（如答案与上下文不相关或重复）方面面临诸多挑战。

Advanced RAG：为了克服前者的缺陷，通过引入预检索和后检索策略来提高检索质量，并对索引技术进行了预检索优化和后检索优化。

Modular RAG：这是RAG的最新发展方向，它将RAG框架分解为多个可插拔的模块，通过引入多个特定的功能模块和可替换的组件，使得系统能够更好地适应新模块和新模式。

RAG技术的这三个研究范式展示了从简单到复杂的发展过程，每个阶段都在解决前一阶段的问题，并引入新的技术和方法来提高系统的性能和适应性。随着研究的深入，RAG技术将继续发展，以更好地服务于知识密集型任务和实时知识更新的需求。

3、RAG技术的增强手段

在RAG领域，传统做法通常是先进行一次检索，再直接进入答案生成环节；这种单轮流程效率不高，并且在解决需要多步骤推理的复杂问题时通常效果欠佳。

针对上述问题，总结了以下三种优化检索过程。

图5 除了最常见的单次检索之外，RAG还包括三种类型的检索增强过程

1、预训练阶段

研究人员通过检索方法来提升预训练语言模型在开放领域问答中的表现。相较于传统的预训练模型，这种方法通过减少参数的使用，提高了效率。它特别擅长处理需要大量知识的任务，并可以通过在特定领域的语料库上训练来构建专门的模型。

2、微调阶段

研究人员首先对大语言模型和检索器进行微调，可以更好地适应特定任务，这提供了同时或单独微调任一者的灵活性。其次，微调有助于模型适应多样化的下游任务。此外，微调还使模型能更好地处理不同数据结构的多种语料库，尤其是在处理图结构语料库方面有明显优势。

3、推理阶段

推理阶段的增强技术因其轻量、高效、无需额外训练以及能够有效利用已有的强大预训练模型而备受推崇。其最大的特点是在模型微调时保持大语言模型的参数不变，重点在于根据不同需求提供更加贴切的上下文信息，同时具有快速和成本低的优势。

4、RAG的科学评估

RAG在NLP领域的快速发展和广泛应用推动了RAG模型评估在LLM社区研究中的首要地位。此评估的主要目标是理解和优化RAG模型在不同应用场景中的性能。

（1）三大核心质量指标

表1 适用于 RAG 评估方面的指标

① 上下文相关性：检索到的上下文是否与问题高度相关

② 答案忠实度：答案是否忠实于检索到的上下文，是否捏造信息出现幻觉

③ 答案相关性：答案是否直接回应了用户的问题

（2）四大关键能力

图6 四大关键能力

① 噪声鲁棒性：模型处理“噪声文档”（相关但无用）的能力

② 负面拒绝：当文档中没有答案时，模型应能正确地拒绝回答

③ 信息整合：模型从多个文档中整合信息的能力

④ 反事实鲁棒性：模型识别并处理文档中事实性错误的能力

（3）自动化评估框架

① RAGAS：该框架关注于检索系统挑选关键上下文段落的能力、大语言模型准确利用这些段落的能力以及生成内容的整体质量。

② ARES：该框架的目标是自动化评价 RAG 系统在上下文相关性、答案忠实度和答案相关性三个方面的性能。

表2 评估框架概述

RAGAS作为一种较新的评估框架，其评估过程主要依赖简单的手写提示，因此在适应新型RAG评估需求时存在一定局限性。这也正是ARES框架提出的意义所在。然而，在评估表现方面，ARES目前仍明显不如RAGAS。尽管如此，ARES在降低评估成本方面具有优势，它通过结合少量人工标注数据和合成数据，并采用预测驱动的推理方法，提供了统计置信区间，从而提升了评估结果的准确性。

结论与展望

RAG作为连接LLM内部参数化知识与外部非参数化知识库的桥梁，是推动大型语言模型走向实用化、可靠化的关键技术。这篇综述展示了RAG技术的演变及其在许多不同任务中的应用，为研究者和工程师提供了一个极佳的RAG技术全景图和路线指南，从早期的Naive RAG到后期灵活的Modular RAG，再到核心组件的深度拆解，内容全面且系统。

图7 RAG生态系统概述

尽管RAG技术取得了长足的进步，但仍然存在一些挑战，值得大家思考及研究：

1、垂直优化

随着 LLM 的上下文窗口越来越长（例如 200K+ tokens），RAG 是否还有必要？

2、水平扩展

RAG已超越文本，如何将其扩展到图像、音频、视频和代码等领域？

3、RAG与微调的结合

如何将RAG（非参数化知识）和微调（参数化知识）的优势结合起来？

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】