企业RAG终极指南：从30%到90%准确率，看这一篇就够了！

在 LLM 浪潮爆发之后，RAG (检索增强生成) 技术因其清晰的技术路径和相对可控的实施成本，成为企业快速落地 AI 应用的重要突破口。本文将分享我们在构建企业知识库智能问答系统过程中的实践历程：如何通过系统化的优化方法，将准确率从初期的 30% 提升到 90% 的实用水平。

Python编程杰哥

489人浏览 · 2025-12-05 11:37:00

Python编程杰哥 · 2025-12-05 11:37:00 发布

引言：RAG - LLM 应用落地的关键技术

这不仅是一个追踪 RAG 技术演进的历程，更是一个将 LLM 技术落地为实用产品的实践案例。本文将介绍如何通过优化召回策略、选择生成模型、设计产品策略，构建一个准确性高、成本可控的 RAG 知识库问答系统，无需复杂的模型精调工作。

RAG流程示意图

初期探索：从简单实现到系统思考

V1 版本：基础 RAG 实践

在 2023 年下半年，我们完成了第一版基于 RAG 的知识库问答系统的上线。这个版本采用了相对简单且主流的技术方案：

文档预处理：采用基于三级标题的分割策略，将文档切分为 500～1000 tokens 的片段，并保留 Markdown 格式的富文本内容
向量化处理：使用当时表现较好的 bge-large-zh-v1.5 模型进行文本向量化
检索策略：结合向量搜索和基于 Elastic Search 的关键词混合检索方案，通过 RRF（Reciprocal Rank Fusion）算法融合排序
问答生成：选用 ChatGLM3-6B 作为基础模型，提供问题总结服务

然而，这个版本在实际运营中的表现并不理想。系统性评测结果显示，真实用户提问的回答正确率仅有约 30%。而更令人沮丧的是，在相当长的一段时间内，我们难以找到明确的优化方案。

RAG 技术远比想象中更难以提升效果。

大模型业界发展：新模型带来的转机

2023 年底至 2024 年初，大模型业界依然在狂飙突进。几个关键的技术进展为我们带来了新的思路：

更强大的基础模型：阿里巴巴 Qwen 系列模型的快速迭代（从 qwen1.5到 qwen2），在中文理解、指令遵循等方面都展现出显著优势，尤其是其 32k 的上下文支持能力
更优秀的向量模型：北京智源研究院发布的 reranker 重排序模型和bge-m3 embedding 模型，为检索优化提供了新的可能性
技术思路的突破：twitter 社区上出现关于 Long Context 与 RAG 技术优劣的大讨论，启发我们重新思考系统架构

2024年初 X 上 Long Context replace RAG的讨论

通过初步测试，我们发现更长的上下文长度支持下（32k），能成倍的增加召回文档的数目，从而显著的提升问答的准确性。然而，这种提升伴随着明显的成本增长：响应时间的增加，以及 GPU 显存消耗增加。

这时就需要评估，如何平衡问答准确性与计算成本和延时？

方法论：构建系统化的评测方案

为了找到这个平衡点，我们设计了一套系统化的评测方案：

1. RAG 流程的漏斗模型

我们将 RAG 流程解构为两个关键阶段：

召回阶段：从知识库中检索相关文档
生成阶段：基于检索结果生成答案

这种分解让我们能够分别优化和评估各个环节的性能，更精确地定位瓶颈所在。

RAG流程的漏斗模型

2. 标准化评测集

我们建立了包含200个标准问题的评测集，每个问题都包括了：

相关文档链接
标准参考答案

这个评测集覆盖了不同类型和难度的问题，能够较好地模拟真实场景下的用户提问。评测的目的是评估不同 RAG 策略的相对优劣，并不等于线上真实运营的结果。

3. 量化的优化策略

基于这个评测体系，我们展开了系统性的优化工作：

召回阶段

召回阶段的目标是选择最优的文档召回策略。通过深入分析不同策略组合的特点，我们得到这些结论：

Vector Search：速度快，适合作为粗排阶段，快速召回 Top K (20/50/100) 的文档
**Rerank：**准确率高，但耗时较大，适合作为精排阶段，对粗排结果进一步提升正确文档的排名。实验表明，对于相同的 N 值，Rerank 比 Vector Search 的准确率普遍提升约 10%
Recall@N：N 值越大，召回文档越多，准确率越高，但同时也增加了输送给 LLM 的 Context Length，对模型的要求也更高

向量搜索、Rerank及TopN的评测实验

召回阶段的优化策略

Vector Search 作为粗排，召回 Top 100 的文档
Rerank 作为精排，从中选取 Top 15 的最相关文档
最终实现了约 85% 的 Recall@15 准确率

生成阶段

模型生成阶段的目标是选择性能和性价比俱佳的模型。经过多次实验和对比，我们发现 Qwen2.5-7B 模型在 10k Context Length 下，依然能保持 90% 左右的正确率，且明显优于之前使用的 ChatGLM3-6B。虽然 Qwen2.5-72B 参数更大，准确率方面有略微提升，但其对显存要求极高，并不具备经济性。

生成阶段的优化策略

选定 Qwen2.5-7B 作为生成模型
将上下文长度限制在 10k tokens，在保证性能的同时控制资源消耗
最终模型达到了约 90% 的生成准确率

产品化思考：技术之上的产品优化

我们逐渐意识到，仅依靠模型技术的优化是不够的。要建设一个真正好用的知识库问答系统，需要从产品和用户体验的角度进行全方位提升：

1. 文档体系建设

大模型素有 “garbage in, garbage out” 的说法。这强调了文档质量的重要性。不但要写好文档，更需要 “面向LLM” 写文档。因此在文档建设方面：

补充高频文档：针对性补充常见问题的标准答案，效果立竿见影
面向 LLM 写文档：确保文档背景知识完整、语义清晰、对模型友好

2. 用户交互优化

我们观察到用户在不同场景下的提问有差异性，并且用户可能无法准确描述问题。因此在产品设计方面：

设计场景化的问题推荐，引导用户更准确地表达问题
提供答案反馈机制，持续收集用户反馈进行优化

成果与思考

通过上述系统性优化，我们最终实现了：

召回阶段：正确文档召回率达到 95%
生成阶段：生成答案准确率达到 90%

这个结果意味着可以投入生产运营中，我们的系统已经为大多数用户提供切实有效的帮助。

整个优化过程也让我们获得了一些重要经验：

1. 系统化方法的重要性：通过建立标准评测体系和量化指标，我们能够更客观地评估不同优化策略的效果

2. 平衡性能与成本：不必一味追求最大参数的 LLM，优秀的 7B 级别的小模型已经足以解决好 RAG 场景

3. 产品设计的必要性：技术优化需要与产品设计优化相结合，才能扬长避短的落地 LLM 应用

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述