必看！手摸手RAG速成：大模型检索增强生成实战指南

本文详解RAG（检索增强生成）系统，解决大模型知识冻结和幻觉问题。通过文档切块、向量化、存储到向量数据库，再检索相关内容作为上下文提供给大模型。文章介绍了数据准备、检索工程和结果生成三个阶段的9个步骤，提供了开源技术栈的实战代码，并指出了语义稀释等局限性，强调了数据工程在AI系统中的重要性。

AI小白熊

370人浏览 · 2025-12-23 20:44:03

AI小白熊 · 2025-12-23 20:44:03 发布

手摸手的RAG速成 1、RAG系统基本介绍

最近看了一份很不错的教程：《A Crash Course on Building RAG Systems》，作者是 Akshay Pachaar 和 Avi Chawla。

这份文档好就好在，它没有上来就给你堆一堆数学公式讲什么高维空间，而是直接通过代码和图解，把 RAG（检索增强生成）这个被吹上天的概念，还原成了最朴素的工程问题。

在这里插入图片描述

我们之前聊过很多次 RAG，今天借着这份资料，咱们不聊虚的，直接从原理到代码，把这套流程彻底跑通。看完你会发现，RAG 其实非常简单。

一、为什么我们需要 RAG？

先说痛点。大模型（LLM）有两个致命毛病：

知识冻结：模型训练完那天，它的脑子就停在那一刻了。它不知道时事新闻、最新数据，因为它没见过。
幻觉：就是说胡话。再好的模型，随着上下文增长也会出现幻觉，这是Attention机制所不能避免的。。

要解决这个问题，最笨的方法是微调（Fine-tuning），但这玩意儿成本高得离谱，而且你今天调完，明天数据又更新了，模型还更好，难道换模型重新调？企业亏麻了。

所以，RAG（Retrieval-Augmented Generation）应运而生。

它的逻辑简单粗暴：既然脑子记不住，那就给它一本参考书。

在回答问题前，搜索知识库中的相关内容，把找到的内容（Context）和问题一起扔给模型，让 LLM 根据参考资料回答。

二、核心概念：向量数据库（Vector Database）

要实现 RAG，绕不开一个东西：向量数据库。

计算机不认识字，它只认识数字。我们需要把文字、图片变成一串数字（Vector/Embedding）。神奇的地方在于，经过 Embedding 模型处理后：

“苹果”和“梨”的向量距离很近。
“苹果”和“卡车”的向量距离很远。

(图注：这就是语义空间，意思相近的东西会聚在一起)

传统数据库查关键词（比如 SQL 的 LIKE），向量数据库查的是意思。哪怕你搜“红色的水果”，它也能给你找出“苹果”，虽然字面上完全不匹配。而神奇的是这些代表“语义”的数字，竟然是可以像数学题一样进行加减运算的！

最经典的案例就是：国王 - 男人 + 女人 ≈ 女王。

神奇的是，这是完全基于词汇向量的加减法进行的推理。所以说，语言所承载的信息本身可能就是一种智慧。。。

三、RAG 的“洋葱模型”：从数据到答案

结合文档内容，一个标准的生产级 RAG 流程，其实就是把数据掰开揉碎了，存进去，再读出来的过程。

我们可以把它拆解为 9 个步骤。不过实际项目中你就会发现，这里面全是脏活累活。。。

第一阶段：数据准备

**1. 切块（Chunking）：**第一步是把你的文档（PDF、Word、网页）清洗干净并切成小块。

为什么要切？

TOKEN长度有限：整本书塞进去，Token 瞬间爆炸，模型直接死机。
语义稀释：一段话只讲一个知识点，检索才准。和做饭一样，语料太多混在一起，十三香一样，模型根本搞不清它是什么味。
PS：1.切块策略（固定大小、语义分割）策略很多，是 RAG 效果好坏的第一道生死线，之后会详细写一篇文章说明。2.数据清洗是也是工程中极具挑战性的问题，甚至是最费时间的，比切块还麻烦。本文优先介绍RAG。

2. 向量化（Embedding）：切好块后，用 Embedding 模型把这些文字块变成向量（一串数字），作为这段文字的提纲（向量版）。这里用的不是简单的词匹配，而是上下文嵌入模型（比如双向编码器）。

它能听懂“人话”，知道“苹果”和“手机”在某些语境下是相关的。

3. 入库（Indexing）：把生成的向量存进向量数据库（Vector DB）。这是 RAG 的长时记忆机制来源。

至此，矢量数据库已创建完成。

注意，这里存的不仅仅是向量，还有原始文本和元数据（比如页码、作者）。这样系统就可以基于向量指针，搜索并引用原文。不然搜出来一堆数字。。。

第二阶段：检索工程

4. 用户查询（Query）

用户：“ 表面亲和度是什么意思？出处是哪个文件？”

背景资料：{chunks}问题：{query}请根据背景资料回答问题。

5. 需求翻译（Query Embedding）系统得把用户的这句人话，用同一个 Embedding 模型，也转换成向量。

**注意：必须是同一个模型，**不然就像用英语字典查中文，幻觉会非常严重。

6. 粗筛（Retrieval）：拿着用户问题的向量，去数据库里比对。数据库会通过“近似最近邻搜索”（ANN），给你返回 Top-K 个最像的文本块。这一步叫召回。

**7. 精排（Reranking）：这一步很多教程都没讲！**这是区分 Demo 和生产级系统的关键！向量检索（第6步）虽然快，但有时候不够准。

具体表现为：

相关性不佳： Top 1 的结果通常没问题，但 Top 2-5 的结果相关度非常随机。这直接影响了最终给大模型（LLM）参考的上下文质量。
ANN算法的精度损失（随机性）：为了在大规模数据（百万/千万级）中实现毫秒级检索，向量数据库通常使用****ANN（近似最近邻） 算法，其机制引入了随机性，导致召回的文档排名并不完全准确，最相关的文档可能没有排在最前面。

所以，我们需要一个更聪明的模型（通常是 Cross-Encoder），把捞回来的这些知识素材，重新打个分，把真正最相关的排到前面。

Rerank 通过 **“粗排 + 精排”** 的两阶段策略，在速度和精度之间找到了平衡：根据Rerank模型计算出的精准分数，对文档重新进行排序，最后截取分数最高的 Top N（例如Top 5）投喂给大模型。

这个过程会重新排列数据块，以便优先处理最相关的数据块，从而生成响应。

虽然这一步会增加一点延迟，但为了准确率，这是必须要做的。。。

第三阶段：结果生成

**8. 生成结果（Generation）**系统把排好序的最相关文本块（Context），填进 Prompt 模板里，连同用户的问题，一起扔给大模型（LLM）。

这时候，大模型就不再是瞎编了：

★

“根据以下资料（我们找出来的），回答用户的问题…”

而后，模型综合这些上下文，生成一句通顺的人话，交给用户端。

总结一下：前三步是脏活累活（数据工程），中间两步是搜索技术（检索工程），最后一步才是AI 生成。

RAG也好，AI也好，别光盯着最后的大模型看，没有数据科学的基本功，后面全是幻觉。。。

四、动手实战：全开源技术栈

光说不练假把式。文档里给了一套完全开源的方案，大家可以在自己的笔记本上跑起来试一试。

工具栈：

大脑 (LLM): Llama 3.2 (通过 Ollama 运行，轻量级)
框架 (Framework): LlamaIndex (专门做 RAG 的框架)
记忆 (Vector DB): Qdrant (开源向量库，Docker 一键起)

核心代码解析：

首先，用 Docker 启动 Qdrant：

docker run -p 6333:6333 -p 6334:6334 \    -v $(pwd)/qdrant_storage:/qdrant/storage \    qdrant/qdrant

然后，用 LlamaIndex 加载数据并建立索引。这一步就是把 PDF 变成向量存进去：

from llama_index.core import VectorStoreIndex, SimpleDirectoryReaderfrom llama_index.vector_stores.qdrant import QdrantVectorStore# 1. 读文件（脏活）documents = SimpleDirectoryReader("./docs").load_data()# 2. 连数据库vector_store = QdrantVectorStore(client=client, collection_name="chat_with_docs")# 3. 建索引（自动完成切块、Embedding、存储）index = VectorStoreIndex.from_documents(    documents,    storage_context=storage_context)

最后，查询并加入重排（Reranking）。这里用了一个 SentenceTransformerRerank，虽然慢点，但精度提升巨大：

from llama_index.core.postprocessor import SentenceTransformerRerank# 设置重排模型rerank = SentenceTransformerRerank(    model="cross-encoder/ms-marco-MiniLM-L-2-v2",    top_n=3# 只取前3个最相关的)# 查询引擎query_engine = index.as_query_engine(    similarity_top_k=10, # 先捞10个    node_postprocessors=[rerank] # 再精选3个)response = query_engine.query("What exactly is DSPy?")print(response)

代码跑通，你会发现模型能准确回答出 PDF 里的内容，此时恭喜你通过代码搭建了RAG 的最小应用！

泼盆冷水：RAG 的局限性

虽然 Demo 跑通了很爽，但作为工程实战派，我得提醒大家几个坑，文档最后也提到了，非常真实：

语义稀释（Semantic Dilution）：如果你的切块太大，里面混杂了无关信息，检索精度会直线下降。
聚合类问题（Aggregation）是死穴：如果你问这100份文档里，哪一份提到的销售额最高？ RAG 通常回答不出。因为向量检索是找相似，而不是做统计。它很难把所有文档扫一遍再比较。
中间迷失（Lost in the Middle）： LLM 有个毛病，它对 Prompt 开头和结尾的内容印象深刻，中间的内容容易忽略。所以重排后的文档顺序也很重要。
问题与答案不相似：有时候用户问的问题，和文档里的答案在字面上完全不沾边。这时候可能需要引入 HyDE（假设性文档嵌入）这种高级技巧，让模型先自己生成一个假答案，拿假答案去搜真答案。

最后

在真实的企业级AI项目中，我们 80% 的时间其实不是在调大模型，而是在清洗数据和优化检索策略。AI系统的本质依然是数据工程系统。你可以把大模型理解成一个考试的考生，而RAG、数据工程，是背后那个递小抄的人。

RAG 可以让大模型进行开卷考试，而我们要做的所有工程上的努力，就是确保在它提笔作答前，把书翻到了最正确的那一页。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：
在这里插入图片描述

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

最后

只要你真心想学习AI大模型技术，这份精心整理的学习资料我愿意无偿分享给你，但是想学技术去乱搞的人别来找我！

在当前这个人工智能高速发展的时代，AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长，真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料，能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来，我们不断打磨课程体系与技术内容，在细节上精益求精，同时在技术层面也新增了许多前沿且实用的内容，力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径，能够帮助你从零入门，进阶到实战，真正掌握AI时代的核心技能！

01 教学内容

从零到精通完整闭环：【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块，内容比传统教材更贴近企业实战！
大量真实项目案例： 带你亲自上手搞数据清洗、模型调优这些硬核操作，把课本知识变成真本事‌！

02适学人群

应届毕业生‌： 无工作经验但想要系统学习AI大模型技术，期待通过实战项目掌握核心技术。

零基础转型‌： 非技术背景但关注AI应用场景，计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈： 传统开发者（Java/前端等）学习Transformer架构与LangChain框架，向AI全栈工程师转型‌。

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵，仅限大家自行学习，不要传播！更严禁商用！

03 入门到进阶学习路线图

大模型学习路线图，整体分为5个大的阶段：

04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程（涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向）

新手必备的大模型学习PDF书单来了！全是硬核知识，帮你少走弯路（不吹牛，真有用）

05 行业报告+白皮书合集

收集70+报告与白皮书，了解行业最新动态！

06 90+份面试题/经验

AI大模型岗位面试经验总结（谁学技术不是为了赚$呢，找个好的岗位很重要）
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享！！！
vx扫描下方二维码即可
加上后会一个个给大家发
在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

51c自动驾驶~合集63

自动驾驶技术诞生到发展至今，已经有十多年了，随着技术的不断迭代，以及大模型技术的蓬勃发展，如今的自动驾驶仿佛进入了一个“百家争鸣”的时代。如果说早期的模块化设计像是手工打造的传统汽车，

2048 AI社区

比话降Ai的技术原理是什么？为什么能把知网AI率降这么低！

2048 AI社区

CppCon 2024 学习:Multi Producer, Multi Consumer, Lock Free, Atomic Queue User APl and Implementation

理解：下面是一个简化版 C++ MPMC 队列示例，带注释：注释解析哑节点 (dummy node)用于简化边界条件处理，和都指向哑节点开始。数学上可以理解为：head=tail=Node0\text{head} = \text{tail} = \text{Node}_0head=tail=Node0原子操作 (atomic)保证在多线程环境下队尾更新不会产生数据竞争。atomic_excha