【大模型实战】提升RAG检索效率：从50%到95%+召回率的技术实战！

本文介绍了一种改进RAG检索效果的方法，通过在索引中添加结构化字段和使用LLM转换用户查询，将系统召回率从50-60%提升至95%以上。该方法针对需要精确匹配的场景，如特定服务位置查询，通过结构化过滤替代传统向量搜索和BM25搜索，解决了语义相似性但非精确匹配的问题，同时考虑了实现成本和性能平衡。

程序员王饱饱

513人浏览 · 2025-09-04 17:22:14

程序员王饱饱 · 2025-09-04 17:22:14 发布

简介

在本文中，我会分享一些改进 RAG（检索增强生成）应用程序中检索的出色技术。最近在一个客户项目中使用了这些技术，将系统的召回率从大约 50-60% 一直提高到 95% 及以上。

召回率对于任何 RAG 应用程序来说都是一个非常重要的指标。它虽然只是衡量检索系统为给定用户问题进行搜索或找到正确文档的能力。但是，这会强烈影响生成的结果的好坏——无论我们是在构建聊天机器人还是其他类似的应用。

大多数人现在都知道这一点：如果你不为 LLM 提供必要的上下文，无论你在RAG链的末端做多少提示工程，它都无法产生好的结果。因此，在 RAG 中，获得良好结果的最大因素（通常）是良好的检索。我们衡量这一点的方法就是用召回率。

现在，来详细介绍这个客户项目，以便您可以准确的了解我们做了什么以及我们如何实现超过 95% 的召回率——从而成为一个非常可靠的系统。

设置：经典的 RAG 管线

从高层次视角来看，这是一个非常经典的 RAG 项目。我们构建了一个供内部使用的聊天机器人，专门供客户服务人员更快地查找信息。

基本流程：

从不同的客户系统和数据库获取数据。
预处理数据：分块、嵌入和所有常见的 RAG 内容。
从这些文档块构建搜索索引。
将聊天机器人连接到该搜索索引，以便用户可以用自然语言提问。

机器人从索引中检索相关文档，然后使用该文档生成响应。简单、标准的 RAG。

初始版本：朴素的方法

我们的第一个朴素版本看起来像这样：

在索引方面：

我们清理了来自不同系统的数据。
把它切成小块。
创建了用于向量搜索的嵌入。
将这些块和嵌入向量加载到矢量数据库（在本例中为 Azure AI 搜索）中。

我们有各种各样的数据，但对于这个例子，我们将重点介绍两种文档类型：位置和****专家。

这位客户在水疗和健康空间。他们有：

水疗中心和健身房等位置，每个位置都有包括服务（例如护理、按摩）、机器、城市和地区在内的描述。
按摩治疗师和私人教练等**专家，**具有类似的服务描述。

我们将所有相关字段（描述、城市、地区）合并到一个内容字段中以进行文本搜索。我们还创建了该字段的嵌入以进行向量搜索。

将“位置”和“专家”作为统一的内容文档进行可视化比较 — 旨在清晰、干净地编制索引

在前端：

用户会键入类似的内容：“赫尔辛基的瑞典式按摩”。

然后，我们将按以下任一方式运行该查询：

针对内容向量字段的向量搜索，或
针对内容字段的全文 BM25 搜索。

我们尝试了两者——但都遇到了问题。

为什么它不起作用

比较 BM25 与使用 ai 制作的矢量搜索结果

矢量搜索

这完全不行。

虽然向量搜索非常适合模糊匹配和语义相似性，但在我们的例子中，我们需要完全匹配——服务和位置。

相反，矢量搜索会返回类似的服务或城市（如芬兰的其他按摩店或其他首都），但并不完全是用户要求的内容。没有帮助。

BM25型

稍微好一点，但仍然不好。

BM25 根据搜索词的频率对文档进行排名。这听起来没问题，直到你意识到：

一份多次提及“按摩”和随机提及“瑞典肉丸”的文件可能比真正的赫尔辛基水疗中心提供瑞典式按摩的排名更高——只是因为术语频率。

它不优先考虑完全匹配，而这正是我们的主要需求。

其他问题

我们还遇到了：

共轭问题——特别是因为该项目是芬兰语的。例如，“in Helsinki”以不同的方式变位，如果变位与用户查询不完全匹配，BM25 将找不到它。

解决方法：在 LLM 辅助下进行结构化搜索

以下是我们如何解决这个问题并将回忆率提高到 95% 以上的方法。

第 1 步：修改索引

我们在搜索索引中添加了一个新字段：services，作为结构化列表，而不是将它们嵌入到自由格式描述中。

但这些数据无法直接获得，因此我们在索引期间使用LLM提取服务。

例如，从位置或专家描述中，我们会提示 LLM 生成：

services: ["Swedish massage", "facial", "deep tissue massage"]

然后，我们完全删除了向量嵌入——它们对我们的需求没有用处。

第 2 步：转换查询

这才是真正的游戏规则改变者。

我们现在没有将用户的原始查询直接传递到搜索中，而是使用 LLM 将查询构建为如下格式：

这样，我们就可以对城市和服务字段运行
精确的筛选查询
，只获取完全匹配的文档。

展示如何使用 AI 制作的结构对查询进行转换和索引

结果

在实施这些更改后，我们又进行了一轮用户测试，结果很明显：

召回率从 50-60% 跃升至近 100%。
以前的大多数问题都已得到解决。
只剩下少数边缘情况，主要是由于数据质量差。

直观地显示使用 AI 进行的召回改进

权衡

索引现在更昂贵，因为我们使用 LLM 来提取服务。但这个工具是为数百名内部用户构建的，为他们节省了数千小时，因此非常值得。
前端有轻微延迟。我们添加了一个额外的 LLM 交互，以在检索之前构建查询。但它很快：输入和输出短，我们在这里使用了一个小模型。

最后的思考

这是一个巨大的胜利，通过相对简单和直观的改变来实现。

有时你不需要Agentic RAG 或研究论文中的其他流行技术。你只需要清楚地了解你的实际问题。

在我们的例子中，用户需要特定服务位置查询的精确匹配。这为我们指明了结构化过滤作为解决方案的方向。

虽然 RAG 通常意味着检索增强生成，但它也反过来工作。有各种巧妙的方法可以使用 LLM 来构建更好的检索。

ntic RAG 或研究论文中的其他流行技术。你只需要清楚地了解你的实际问题。

在我们的例子中，用户需要特定服务位置查询的精确匹配。这为我们指明了结构化过滤作为解决方案的方向。

虽然 RAG 通常意味着检索增强生成，但它也反过来工作。有各种巧妙的方法可以使用 LLM 来构建更好的检索。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至：月薪30K+的AI岗正在批量诞生

在这里插入图片描述

2025年大模型应用呈现爆发式增长，根据工信部最新数据：

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K（数据来源：BOSS直聘报告）

70%企业存在"能用模型不会调优"的痛点

真实案例：某二本机械专业学员，通过4个月系统学习，成功拿到某AI医疗公司大模型优化岗offer，薪资直接翻3倍！

02.如何学习大模型 AI ？

🔥AI取代的不是人类，而是不会用AI的人！麦肯锡最新报告显示：掌握AI工具的从业者生产效率提升47%，薪资溢价达34%！🚀

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

1️⃣ 提示词工程：把ChatGPT从玩具变成生产工具
2️⃣ RAG系统：让大模型精准输出行业知识
3️⃣ 智能体开发：用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你：
✔️ 大厂内部LLM落地手册（含58个真实案例）
✔️ 提示词设计模板库（覆盖12大应用场景）
✔️ 私藏学习路径图（0基础到项目实战仅需90天）

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【多智能体编队】基于采用李雅普诺夫（Lyapunov）方法和自适应控制算法有向拓扑下多智能体系统编队控制附Matlab复现和文献

本文研究了有向图中存在未知输入领导者的多智能体系统分布式二分变队形控制问题。本文提出的自适应非光滑协议仅利用相邻智能体间的局部输出反馈信息，从而避免使用图拉普拉斯矩阵的特征值信息。研究表明：若以领导者为根、包含生成树的有向交互网络满足结构平衡，那么通过所提方案，在领导者输入有界的情况下，可实现二分变队形跟踪。采用李雅普诺夫（Lyapunov）方法对所提多智能体系统协议进行了收敛性分析。最后，通过有