【收藏必学】大模型“一本正经地胡说八道“？RAG检索增强生成技术详解，小白也能掌握

从外部知识库（Corpus）中检索出相关信息来辅助改善大语言模型生成质量的系统被称之为检索增强生成（Retrieval-Augmented Generation，RAG），是抑制幻觉的有效机制。外部知识库与LLM储存在参数中的知识相对，一个被称为参数化记忆，另一个被非参数化记忆。RAG系统的基本架构由外部知识库（Corpus）、信息检索器生成器（Generator）组成，其系统链路大致如下：图1.

m0_48891301

572人浏览 · 2025-12-11 13:38:14

m0_48891301 · 2025-12-11 13:38:14 发布

大语言模型存在"幻觉"问题，生成看似合理但实际错误的内容。检索增强生成(RAG)通过外部知识库、检索器和生成器三部分系统，让LLM从外部知识库中检索相关信息辅助生成，避免了对模型参数的修改。RAG提高了知识的时效性和准确性，降低了计算成本和运维复杂性，是比传统微调更具性价比、更易落地的解决方案，特别适用于需要快速集成新知识的场景。

一、RAG的定义

从外部知识库（Corpus）中检索出相关信息来辅助改善大语言模型生成质量的系统被称之为检索增强生成（Retrieval-Augmented Generation，RAG），是抑制幻觉的有效机制。外部知识库与LLM储存在参数中的知识相对，一个被称为参数化记忆，另一个被非参数化记忆。RAG系统的基本架构由外部知识库（Corpus）、信息检索器（Retriever）、生成器（Generator）组成，其系统链路大致如下：

图1. RAG系统链路图

针对用户提出的查询问题，做查询增强，可以做同义改写、多视角分解等语义增强，也可以做生成背景文档的内容增强。事先定义好的外部知识库为查询提供“抓手”，当前用户提出的查询作为“钩子”，实现查询与相关文档的抓取。

RAG 的核心优势在于不需要对大语言模型的内部知识进行更新，便可改善大语言模型的幻觉现象，提高生成质量。这可以有效避免内部知识更新带来的计算成本和对旧知识的灾难性遗忘（Catastrophic Forgetting）。此外，在知识时效性、领域适应性、生成内容的可解释性、灵活性与扩展性、生成的精准性上都表现出技术优势。

全量微调（Full Fine-Tuning，FFT）或参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）通常可以让大语言模型更好地学习和掌握新的知识体系，尤其适用于各类垂直领域（如医疗、法律、金融等）的定制化任务。这些方法能够有效提升模型在特定任务或特定领域的表现，实现知识的“内化”。但是这种方法局限性也比较明显，体现在资源消耗、知识更新的灵活性、灾难性遗忘风险、运维和管理复杂性上。不同领域、不同任务可能需要维护多个微调模型，增加了系统的运维难度和成本。其所需的计算资源估计如下图1所示：

图2. 资源估算

计算资源估算：https://github.com/hiyouga/LLaMA-Factory?tab=readme-ov-file#supported-models

相较之下，RAG（Retrieval-Augmented Generation）则通过“外部检索+语言生成”的方式，有效绕开了上述问题：

无需对模型参数进行修改即可灵活集成新知识；
外部知识库实时可更新，具备更好的时效性和灵活性；
降低了算力消耗和维护成本；
提高了生成结果的可控性和可解释性。

因此，在需要快速集成、知识更新频繁或资源受限的场景下，RAG 往往是比微调更具性价比、更易落地的选择。

二、知识库（Corpus）

LLMs仅能处理文本输入，但现实文档包含多模态数据（文本/表格/图片/图表），结构化与半结构化文档（如PDF/Word/Excel）需要特殊解析技术。知识库的核心功能包括文档解析层和知识组织层，实现原始的知识文档到可检索单元的转变。

图3. KILT数据库内容

以Wikipedia语料为例，原始资料为XML格式的快照，经过清楚HTML标签、提取正文、段落分块，最后事先向量化存储。

三、检索器（Retriever）

在RAG（检索增强生成）系统中，检索器（Retriever）扮演着"知识库导航员"的角色，专门负责在海量数据中快速锁定与问题最相关的信息片段，为大语言模型（LLM）的生成环节提供精准的辅助信息。其工作流程如下：

问题理解

将用户提问转化为机器可理解的查询（如向量化表示或关键词组合）。
知识库搜索

通过语义匹配或关键词检索，从知识库中筛选出Top-K最相关的文档段落（例如：维基百科条目、技术文档片段等）。
质量过滤

对检索结果进行相关性评分，剔除低质量或无关内容（如使用BM25/稠密向量相似度计算）。

RAG的检索器像一位图书管理员，它不会自己写书，但能瞬间从千万本书中找出你需要的那几页——这正是LLM生成可靠答案的关键保障。

图4.检索器结果示意图

四、生成器（Generator）

在RAG系统中，生成器（Generator）是大语言模型（LLM）的核心组件，负责将检索器提供的知识转化为自然语言回答。它就像一位"知识整合专家"，能够结合检索到的外部信息和自身预训练的内部知识，生成准确、流畅且符合上下文的答案。

它的核心功能有三点：

知识融合：将检索器返回的文档片段（如维基百科段落、专业资料）与用户查询结合，通过注意力机制动态加权关键信息。

上下文学习（In-Context Learning，ICL）：通过Prompt设计（如Few-shot示例、思维链提示）引导模型理解任务需求。

抗幻觉设计：当检索信息与内部知识冲突时，优先依赖检索结果（需配合检索质量优化）。部分先进架构（如SELF-RAG）会引入自省标记（Reflection Tokens），动态判断是否需检索或修正生成内容。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】