面试官灵魂拷问：什么是RAG？3分钟带你吃透检索增强生成，告别面试雷区！

RAG（检索增强生成）通过结合检索与生成技术解决大模型知识冻结问题。其工作流程分为离线与在线两阶段：离线阶段完成文档加载、智能分块、向量化及入库；在线阶段处理查询、向量检索、结果精排并生成答案。核心价值在于支持知识热更新与答案溯源，相比微调更高效灵活。完整流程需涵盖文档预处理、语义检索、相关性排序及上下文生成等关键环节，实现外部知识与大模型的动态结合。掌握RAG的双阶段架构及技术细节，可有效应对私

全栈大佬！

25人浏览 · 2026-05-12 16:24:20

全栈大佬！ · 2026-05-12 16:24:20 发布

RAG（Retrieval-Augmented Generation）通过检索外部知识库增强大模型生成能力，解决LLM知识冻结问题。其工作流程包含离线阶段（文档加载、切割、向量化、入库）和在线阶段（Query处理、向量检索、精排、生成），实现知识热更新和答案溯源。掌握RAG核心价值和完整流程，可有效应对面试。

👔面试官：来说说什么是 RAG？详细描述一下一个完整 RAG 系统的工作流程。

🙋‍♂️我：RAG 我知道，就是一个搜索 API，用户输入关键词，去数据库里把匹配的文档捞出来返回给用户，就这样。

👔面试官：……你这是 Elasticsearch 吧？RAG 里的「G」是 Generation，生成呢？LLM 在哪？你把最核心的环节整个漏掉了。

🙋‍♂️我：哦哦，我重新说。RAG 就是把公司文档丢给大模型，让它自己学进去，下次用户问问题它就能直接答了。

👔面试官：你这说的是微调（Fine-tuning），不是 RAG。RAG 根本不会去改模型的参数，你是怎么把这两个完全不同的东西搞混的？

🙋‍♂️我：好吧，那 RAG 就是先检索再生成嘛，把数据库查出来的东西扔给大模型就行了，应该没什么复杂的吧？

👔面试官：「扔给大模型」？原始文档直接扔？一篇几万字的 PDF 你怎么扔？文档切割（Chunking）怎么切？Embedding 向量化怎么做的？离线阶段和在线阶段分别做了什么？粗排和精排（Rerank）的区别是什么？一个都说不出来是吧？回去好好补补再来吧。

好吧，这段面试属实是踩了所有雷。不过别慌，下面我把 RAG 的知识点掰开揉碎了讲一遍，保证你看完不会再被问住。

💡 简要回答

RAG 全称是 Retrieval-Augmented Generation，就是检索增强生成。我理解它解决的核心问题是，LLM 的知识在训练完之后就固定了，遇到私有数据或者最新的信息它就答不上来。

RAG 的做法是在生成答案之前，先去外部知识库里检索相关内容，然后把检索结果和用户的问题一起交给 LLM，让它基于这些上下文来回答。本质上就是给 LLM 开了一个开卷考试的口子，不用再靠死记硬背了。

📝 详细解析

LLM 的「知识冻结」困境

在聊 RAG 之前，得先搞清楚一个问题：LLM 为什么需要 RAG？它的知识到底差在哪？

你想想看，一个 LLM 训练完之后，它的知识就冻住了，训练数据截止日期之后发生的事情它一无所知，你们公司内部的文档它更不知道。就好比一个人高考之后再也不看新闻，你问他今天的股价，他怎么可能答得上来？

那能不能靠微调来更新知识呢？理论上可以，但微调成本高、耗时长，最关键的是，知识一旦写进模型参数，以后想更新就得重新训练一遍。这就好比你为了让一个人记住一条新闻，让他重新上了一遍大学，太不划算了。

RAG 走了一条完全不同的路：不把知识塞进模型参数里，而是在用户提问的时候，实时去外部知识库检索，把找到的相关内容直接放进 prompt 给 LLM 读。LLM 本身有很强的阅读理解能力，就算它之前不「知道」这段内容，只要你把它放在上下文里，它就能基于这段内容来回答问题。这就是 RAG 的核心思想：既然模型记不住，那就给它开卷考试。

一个完整的 RAG 系统分离线和在线两个阶段，下面我挨个讲。

离线阶段：提前把知识准备好

离线阶段的目标很明确：在用户提问之前，就把知识库建好。这一阶段只做一次，建好了后面反复用。

第一步是文档加载。把各种格式的原始数据读取进来，可以是 PDF、Word、Markdown、网页、数据库记录等。这一步通常用 LlamaIndex 或 LangChain 提供的 DocumentLoader 来做，它们支持几十种数据源格式，基本上你能想到的格式都有现成的加载器。

接下来是文档切割（Chunking）。你可能会问，为什么不把整篇文档直接存进去检索，非要切成一块一块的？原因有两个。一是向量模型有输入长度限制，一般最多几百到几千个 token，整篇文档根本塞不进去。二是更关键的，如果把一整篇文章压缩成一个向量，细节信息会被「平均掉」。这就好比你问「这道菜怎么样」，对方回答「中国菜整体偏咸」，具体哪道菜咸、咸到什么程度，全丢失了。

所以要把文档切成小片段（chunk），每个 chunk 代表一段聚焦的内容。那 chunk 大小怎么定？太大了（比如 2000 token），信息太杂，检索时容易召回来一堆不相关的东西；太小了（比如 50 token），语义不完整，上下文被切断了。实践中通常 500～1000 token 一个 chunk，同时做一定的重叠（比如前后各重叠 100 token），避免把一段完整的语义从中间切断。

然后是整个离线阶段最核心的一步，Embedding（向量化）。Embedding 模型会把一段文字转成一个高维数字向量，比如一个 1536 维的浮点数列表。这东西听起来很玄，但其实你可以把它理解成一个「语义坐标系」。什么意思呢？语义相似的文本，它们在这个坐标系里的位置就靠近；语义不相关的，位置就离得远。比如「苹果手机怎么截图」和「iPhone 如何截屏」，这两句话用词完全不一样，但意思一样，所以它们的向量会非常接近。Embedding 做的事情，就是把「意思」编码成数学坐标，意思越相近，坐标越靠近。这就是语义检索的基础，它不是在匹配关键词，而是在比较「意思相不相近」。

最后一步是入库，把每个 chunk 的向量和原始文本一起存进向量数据库。向量数据库专门优化了高维向量的存储和相似度搜索，常见的有 Chroma、Milvus、Qdrant、Weaviate 等，支持在千万量级的向量里快速找到最相近的几条。

到这里，离线阶段就完成了。知识库已经建好，等着在线阶段来检索。

在线阶段：用户提问时实时检索

在线阶段是每次用户提问时实时执行的，对响应速度有要求。

第一步是Query 处理。用户的提问往往是口语化的，或者比较模糊，直接拿去检索效果不一定好。比如用户问「上次说的那个方案怎么样」，这个问题离开对话上下文完全没法检索，因为检索系统根本不知道「上次」指的是什么、「那个方案」又是哪个。所以实际工程里会加一步 Query 改写，让 LLM 把用户的问题改写成更适合检索的形式，或者从对话历史里补充必要的上下文。

然后是向量检索（粗排）。把用户的问题也转成向量，然后去向量库里做相似度搜索，找出向量距离最近的 Top-K 个 chunk。这一步速度非常快，即使是百万量级的向量库，通常也能在几十毫秒内返回结果。但速度快是有代价的，向量检索本质上只是比较两个向量的距离，它没有深度理解查询和文档之间的语义关系，所以召回的结果里难免混入一些「看着近但其实不相关」的内容。

接下来是Rerank（精排）。这一步就是为了弥补粗排的不足。Rerank 模型（通常是 Cross-Encoder 结构）会把用户问题和每个候选 chunk 拼在一起，深度理解它们之间的相关性，然后重新排序，把不相关的结果过滤掉。打个比方，粗排就像你用肉眼在书架上快速扫了一遍，把看着可能相关的书都抽了出来；精排就是你一本一本翻开读目录，确认哪些书真正有用。精排更准但更慢，所以通常只对粗排返回的 Top-20 结果做精排，最终留下 Top-3 到 Top-5。

最后是生成，把用户问题 + 精排后的 chunk 拼成 prompt，交给 LLM 生成最终答案。Prompt 里通常会明确告诉 LLM「只根据提供的资料回答，资料里没有就说不知道」，这样能有效抑制 LLM 瞎编的倾向。

串起来看完整流程

整个流程串起来是这样：离线阶段把文档切割成 chunk，转成向量存进数据库，这一步只做一次；在线阶段每次用户提问时，先把问题向量化，再去数据库里检索，经过精排后拼进 prompt，最终由 LLM 生成答案。两个阶段分工明确，离线负责建库，在线负责检索和生成。

RAG 最核心的价值体现在两点。一是知识可以随时热更新，往知识库里加新文档就行，不需要重新训练模型，成本极低。二是答案有溯源，每条回答都能追溯到来自哪个 chunk，可解释性比纯 LLM 生成强很多，遇到答错了也知道是哪条知识出了问题。这也是为什么企业落地 AI 问答系统，RAG 是首选方案。

🎯 面试总结

回到开头那段面试，现在我们再来看，该怎么回答这个问题才不会踩雷。

面试官问「什么是 RAG」，你不能只说「检索+生成」五个字就完了，得说清楚三件事。第一，RAG 解决的是什么问题？LLM 知识冻结、无法覆盖私有数据和最新信息，这是 RAG 存在的理由。第二，RAG 和微调的本质区别是什么？微调是把知识写进模型参数，RAG 是把知识放在外部实时检索，不动模型本身。这两点搞清楚了，面试官就知道你不是背定义的。

然后面试官一定会追问「完整工作流程」。这时候你要按离线和在线两个阶段来讲。离线阶段：文档加载 → 切割（Chunking）→ 向量化（Embedding）→ 入库，这一步只做一次。在线阶段：Query 改写 → 向量检索（粗排）→ Rerank（精排）→ 拼接 prompt → LLM 生成，每次用户提问都要跑一遍。每个环节干什么、为什么需要，都要能说清楚。

最后，如果能再补一句 RAG 的核心价值，知识可热更新、答案可溯源，面试官基本就没什么好追问的了。

最后

对于正在迷茫择业、想转行提升，或是刚入门的程序员、编程小白来说，有一个问题几乎人人都在问：未来10年，什么领域的职业发展潜力最大？

答案只有一个：人工智能（尤其是大模型方向）

当下，人工智能行业正处于爆发式增长期，其中大模型相关岗位更是供不应求，薪资待遇直接拉满——字节跳动作为AI领域的头部玩家，给硕士毕业的优质AI人才（含大模型相关方向）开出的月基础工资高达5万—6万元；即便是非“人才计划”的普通应聘者，月基础工资也能稳定在4万元左右。

再看阿里、腾讯两大互联网大厂，非“人才计划”的AI相关岗位应聘者，月基础工资也约有3万元，远超其他行业同资历岗位的薪资水平，对于程序员、小白来说，无疑是绝佳的转型和提升赛道。

如果你还不知道从何开始，我自己整理一套全网最全最细的大模型零基础教程，我也是一路自学走过来的，很清楚小白前期学习的痛楚，你要是没有方向还没有好的资源，根本学不到东西！

下面是我整理的大模型学习资源，希望能帮到你。

👇👇扫码免费领取全部内容👇👇

在这里插入图片描述

最后

1、大模型学习路线

2、从0到进阶大模型学习视频教程

从入门到进阶这里都有，跟着老师学习事半功倍。

3、入门必看大模型学习书籍&文档.pdf（书面上的技术书籍确实太多了，这些是我精选出来的，还有很多不在图里）

4、 AI大模型最新行业报告

2026最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5、面试试题/经验

【大厂 AI 岗位面经分享（107 道）】

【AI 大模型面试真题（102 道）】

【LLMs 面试真题（97 道）】

6、大模型项目实战&配套源码

适用人群

四阶段学习规划（共90天，可落地执行）

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。