收藏学习：一文掌握大模型RAG技术，解决落地难题

RAG（检索增强生成）技术通过检索外部知识库解决大模型记忆过时和幻觉问题。核心流程包括检索、筛选和生成三步，完整工作流程涵盖数据准备、向量化建库等五个环节。RAG具有知识实时更新、减少幻觉和经济实用的优势，但也面临数据质量、系统复杂性和延迟等挑战。通过合理切分文本块、混合检索、添加Reranker等技巧可提升效果，未来将向多模态和动态检索方向发展。

不秃头de程序猿

852人浏览 · 2025-09-22 15:27:14

不秃头de程序猿 · 2025-09-22 15:27:14 发布

在之前的文章中，我们已经介绍了从经典transformer到最新的模型架构的变化。不过在实际的工作中，其实大部分同学都很少参与模型的训练，或者直接拿开源的框架就可以轻松实现这一过程，对于底层逻辑不求甚解即可。在后面的内容中，我们会逐步去介绍RAG、Agent构建等和实际场景落地相关的内容，从理论到实践以及场景调优的手段，由浅入深的了解整个落地的过程。本文主要针对RAG，先进行系统性的介绍。

一、为什么会有 RAG？

大模型很强，但也有两个“硬伤”：

1. 记忆过时：比如 GPT-4 训练截止在 2023 年，你问它“苹果最新发布的iphone17怎么样”，它可能答不上来。
1. 容易胡编：模型有时会一本正经地“编故事”，也就是我们所谓的“幻觉”。

RAG（Retrieval-Augmented Generation，检索增强生成）解决办法就像是让模型开卷考试：

• 不是光靠“死记硬背”，而是先去查资料库（检索），再结合记忆和推理去回答问题（生成）。
• 举个例子：问“苹果最新发布的手机有哪些亮点？”——普通模型可能答一堆 2023 年的旧机型，而带 RAG 的模型会先去“翻资料”（新闻/官网），再写出答案，还能标注来源。

二、RAG 的核心流程：三步走，像人查资料一样

虽然实际系统很复杂，但本质可以简化为三步：

1. 检索（Retriever）
  像搜索引擎一样，从数据库或向量库里找出跟问题最相关的几段文字。

• 关键在于“切分文档 + 语义检索”——比如把一篇论文切成几百字的chunk，才能更精准匹配。

1. 筛选（Reranker / Selector）
  就像翻书时先挑重点，把不靠谱的资料过滤掉。

• 过去大家用简单的打分排名，现在的新趋势是集合选择：不是只挑“top-5”，而是让模型自己决定需要几条数据、哪些组合最合理。

1. 生成（Generator）
  最后，模型拿到这些“资料”，再根据提问写答案。

• 随着模型能力和上下文窗口的增加，相较于传统的“精挑细选”，我们可以给与模型更多的数据去进行对比分析、加工。

你会发现：整个过程和人类写论文差不多——先搜集资料，再精选参考文献，最后写作。

三、RAG 的优势与挑战

优势：

• 知识实时更新：外部文档随时更新，模型不用频繁重训。
• 减少幻觉：回答更“脚踏实地”，可以溯源。
• 经济实用：小模型 + 好检索 ≈ 大模型的一部分能力，成本更低。
在实际场景落地的过程中，前两者的作用不言而喻，特别是对一些信息安全要求比较高如金融这样的行业。

挑战：

• 垃圾进垃圾出：检索错了，答案也会错。
• 系统复杂：要维护索引、嵌入、检索参数，工程成本比单一模型高。数据治理非常重要。
• 延迟问题：多环节串联，会比直接调用模型慢。

四、RAG 的工作流程：从提问到回答的“流水线”

RAG 系统并不是一个黑箱，而是一个清晰的“流水线”，大致可以分为 五个环节。理解这五步，有助于你判断自己业务里该如何落地。

1. 数据准备（Data Ingestion）

企业的知识文档、PDF、网页、数据库……首先要统一抽取成可检索的文本，并切成合适大小的段落（chunk）。
👉 比如一份 100 页的报告，不可能整份丢给模型，要切成 500 字左右的小段落，才能保证检索精准。

2. 向量化与建库（Embedding & Indexing）

把每个段落转成向量，存到向量数据库里（常见如 FAISS、Milvus）。这样，当用户提问时，系统就能通过语义相似度快速找出“最像的问题”的段落。

3. 检索与筛选（Retrieve & Rerank）

当用户发出问题，系统会在向量库里检索出最相近的一批候选段落，再用更强的打分器（Reranker）重新排序，保证前几条真的最相关。
👉 就像你用搜索引擎，第一页前几条才是重点，后面很多其实没那么靠谱。

4. 与模型对话（Augment & Generate）

把“问题 + 检索到的数据”一起送进大模型，模型基于证据来生成回答。
👉 这就像学生开卷考试：带着参考资料写答案，而不是凭空回忆。

5. 答案后处理（Post-processing）

最后，答案会附带引用来源，有的系统还会进行二次验证：如果数据不足，直接拒答或提示“资料不足”。这样既减少幻觉，也方便追溯。

五、最新进展：几个值得关注的方向

过去两年（2023–2025），RAG 的研究非常火，有几个方向特别典型：

1. 从“排名”到“集合选择”

传统 RAG 固定取前 5 条文档，有时会漏掉关键证据。
新的研究（如 METEORA、RE-RAG）让模型自己决定要哪些证据、多少条最合适，并能生成理由（rationale）。这让答案更可靠，也更容易解释。

2. 更聪明的负样本训练

检索器训练时，需要区分“相关”和“不相关”的段落。以前靠 BM25 随便找点负样本，现在很多团队用 LLM 自动生成“以假乱真”的负样本来训练，显著提升检索准确率。

3. 多模态 RAG

不再只检索文本，还能检索视频、图片。比如问“这段会议视频里 CEO 提到的战略重点是什么？”——模型会先在视频转录+字幕里检索，再总结生成。对企业和媒体分析场景特别有用。

4. 动态检索规模

不是一刀切地“取 top-5”，而是根据问题难度动态调整。简单问题可能 1 条就够，复杂问题需要 10 条。这样能在保证准确的同时减少延迟。

六、提升 RAG 效果的实操技巧

如果你要自己做一个 RAG 系统，下面这几招非常实用：

1. Chunk 要合理切

文本块太大 → 检索不准；太小 → 上下文断裂。经验值是 200–500 tokens，重叠 50–100 tokens。可以根据不同的文档类型去动态的设置阈值。而且随着模型能力的增强，语义分割等方式反而不如固定切割来的效果更好。现在也有很多产品通过OCR的手段，直接进行板式分析从而获得对应的文本块。