RAG完全指南：从嵌入到查询改写的五大核心技术（收藏必学）

本文详细介绍了RAG（检索增强生成）技术的五大核心概念：嵌入（文本向量化表示）、切片（文档拆分为小块）、相似度（计算文本相关性）、重排模型（优化检索结果排序）和查询改写（提高检索准确性）。RAG技术使大模型能访问外部知识库，突破静态数据限制，减少幻觉现象，并能提供信息来源引用，提升AI响应的可信度和可验证性，特别适用于对准确性要求高的场景

上马定江山

121人浏览 · 2026-02-03 13:20:26

上马定江山 · 2026-02-03 13:20:26 发布

在之前的文章中有提到RAG相关的内容，感兴趣的可以看看：知识库 RAG：原理、流程、问题与优化建议。

原理大概就是当用户向关联了知识库的 AI 智能体提出问题时，查询不会直接发送给 LLM，而是先在知识库（如企业的文档库，记忆库，数据库等）中检索相关信息。这种检索不仅仅是关键词匹配，而是“语义搜索”，理解用户提出的问题和词语背后的含义。系统会提取最相关的知识切片（chunk），并将这些切片“增强”到原始提示中，最终，这个增强后的提示被送入 LLM，基于上下文，生成既流畅自然又有事实依据的回复。

因此，RAG能够让 LLM 能够访问知识库的内容，突破静态训练数据的限制，利用企业内部文档或 Wiki 等专业知识降低了“幻觉”（虚假信息）的风险，另外一个重要优势是能够提供“引用”，明确指出大模型回复信息的来源，提升 AI 响应的可信度和可验证性，这个在一些财务或对于回复可信度要求较高的，极为重要。

但如果要想更深入了解下RAG相关的一些内容，有几个核心的概念，必须得先了解下，这里也结合最近在项目上的一些了解学习，以及市面上常见智能体平台来解释下。

1、嵌入

在 LLM 语境下，嵌入是文本（如词语、短语或文档）的数值表示，通常为向量（数字列表）。其核心思想是用数学空间表达语义和文本间的关系。含义相近的词或短语，其嵌入在向量空间中距离更近。

在百度千帆中，用户在知识库上传文件后，支持选择向量模型进行嵌入，就是把我上传的文件解析出来之后，对文件内容进行向量化表示。用户提问时，系统通过计算问题嵌入与文档嵌入的相似度，检索最相关的信息用于生成答案。一般常见的开源模型就是bge-large。向量化之后一般就是存储在ES数据库。

2、切片

将大文档拆分为更小、更易处理的片段。RAG 系统无法将整本大文档输入 LLM，而是处理这些小块。如下图，coze将一篇比较大的文档切分成小的片段。

而同样的文档，在百度千帆平台中，则被切成了575个小的分段。

不同的切片策略，会导致同一个切分出来的效果不一样，这里有几个点：

原因	说明
✅ 分块大小（chunk size）	最直接原因：小块 → 更多分段
✅ 分段重叠（overlap）	重叠会显著增加块数
✅ 切分策略（智能语义 vs 固定）	段落感知切分 vs 硬切
✅ 文本预处理差异	是否去噪、压缩、去掉换行符，制表符等
✅ 平台默认设计哲学	效率优先 vs 精度优先

在dify内，切片后会形成父子切片，子分段会被切得更细，这样在知识库内容的命中上会更精确。用户提问时，系统先通过父分段快速判断主题是否相关。若相关，则深入检索对应的子分段获取精确答案，这样可以避免在海量文本中盲目搜索，提升效率。

3、相似度

指两段文本或语义的相似程度，可分为表层（词汇重叠）和深层（语义）。如下面的两张图，在百度千帆和dify中，当知识库切片后，可以通过召回测试，测试其召回后的内容，并会对召回内容进行相似度的打分，分数越高，代表当前召回的文本切片相关度就越高。

文本相似度一般就是计算查询向量与所有文档向量的余弦相似度，返回 Top-K 最相似的文档，下图中，召回数量就是topk。

4、重排模型

对“Query-候选片段”重新排序并打分，更准确地修正知识检索环节后的排序结果。目前用的比较多的大部分都是开源的模型，bge-reranker-large，典型流程是：

初筛（Retrieval）：用向量搜索从文档中快速召回 Top-K（如 K=100）候选。

重排（Reranking）：用更精细的模型对这 K 个候选重新打分排序，选出最相关的 Top-N（如 N=5）送入 LLM，这样就能避免“检索到但排错位”的问题。如下图所示。

5、查询改写

当用户开启“多轮对话改写”后，在正式检索知识库之前，系统会插入一个额外的大模型处理步骤：获取上下文：收集当前对话的历史记录（history）和当前用户输入（current_question）。调用大模型，使用固定提示词模板（Prompt）引导模型输出：你是一个查询改写助手……要求输出仅为改写后的查询语句，不加解释、标注或其他内容。

用改写后的查询替代原始输入，执行后续的知识库检索，从而提高后续知识检索的相关性和准确度。