别再怪大模型了！RAG效果差，90%的问题出在这三个环节！

本文将带您系统拆解RAG的三大阶段，揭示每个环节的典型陷阱，并提供可落地的优化方案——从用智能文档技术破解PDF难题，到通过动态防护栏杜绝“幻觉”，助您真正释放RAG的生产力潜能。

AI-智能

679人浏览 · 2026-01-10 11:24:25

AI-智能 · 2026-01-10 11:24:25 发布

随着大模型在企业场景中的广泛应用，RAG（检索增强生成）已成为连接私有知识与智能问答的核心桥梁。然而，许多团队发现：即使使用顶尖大模型，RAG的回答仍常出现信息缺失、答非所问甚至“一本正经地胡说八道”。问题究竟出在哪里？

事实上，RAG的质量瓶颈往往不在模型本身，而在于数据源头的混乱、检索环节的偏差，以及生成过程的失控。本文将带您系统拆解RAG的三大阶段，揭示每个环节的典型陷阱，并提供可落地的优化方案——从用智能文档技术破解PDF难题，到通过动态防护栏杜绝“幻觉”，助您真正释放RAG的生产力潜能。

0****1

数据准备阶段

数据准备是 RAG 系统的基石。企业文档多为非结构化或半结构化形式（如合同、报告、扫描件等），若未经处理直接使用，易引入噪声、错误或安全风险，严重影响检索与生成质量。因此，识别并解决该阶段的关键问题，是提升 RAG 效果的首要任务。

常见问题

数据质量差：

企业大部分数据（尤其是非结构化数据）缺乏良好的数据治理，未经标记/评估的非结构化数据可能包含敏感、过时、矛盾或不正确的信息。

多模态信息：

文档中包含文本、表格、图像、页眉页脚等多种元素，其空间布局与语义角色高度耦合。传统 OCR 或文本提取工具难以保留这种结构信息，导致后续检索与生成丢失上下文。

复杂的PDF提取：

PDF是为人类阅读而设计的，机器解析起来非常复杂。

如何提升数据准备阶段的质量？

一、构建完整的数据准备阶段的质量

1.数据评估与分类

数据审计：

全面现有数据，识别敏感、过时、矛盾或不准确的信息。

识别敏感信息，比如：客户姓名、身份证号、手机号、银行账号、交易记录等个人身份信息。这些信息可能未经加密存储，存储泄露风险。部分数据可能被未授权人员访问。

识别过时信息，比如：客户地址、联系方式未及时更新。已结清的贷款或信用卡账单仍被标记为“活跃”。过时信息可能导致客户沟通失败或决策错误。

数据分类：

按类型、来源、敏感性和重要性进行分类，便于后续处理。

2.数据清洗

去重：删除重复数据。

纠错：修正格式错误、拼写错误等。

更新：替换过时信息，确保数据时效性。

一致性检查：解决数据矛盾，确保逻辑一致。

3.敏感信息处理

识别敏感数据：

使用工具或正则表达式识别敏感信息（如个人身份信息）。

脱敏或加密：

对敏感数据进行脱敏处理，确保合规。

4.数据标记与标注

元数据标记：

为数据添加元数据（如来源、创建时间等）。

内容标注：

对非结构化数据进行标注，便于后续检索和分析。

5.智能分块策略

根据文档语义结构（如章节、段落、表格）进行智能切片，避免在句子中间截断；可结合 Layout 信息确保表格、公式等完整保留在同一 chunk 中。

关于知识切片策略可参考历史文章：

https://mp.weixin.qq.com/s/BhYqpTN9uJA4Ryoo_iMSKA

6.数据治理框架

制定政策：

明确数据管理、访问控制和更新流程。

责任分配：

指定数据治理负责人，确保政策执行。

监控与审计：

定期监控数据质量，进行审计。

二、智能文档技术

采用基于多模态预训练的智能文档理解技术（如微软 LayoutLMv3 或阿里文档智能），可同时建模文本内容、视觉布局与语义结构，实现高精度的文档解析与结构化抽取，有效应对复杂 PDF 和多模态信息挑战。

阿里文档智能

提供一站式 SaaS/API 服务，支持 PDF/扫描件自动结构化解析，查看详情

微软 LayoutLMv3

开源模型，支持自定义微调，适用于研究与私有化部署，GitHub 与论文

MinerU

面向大模型时代的开源文档解析工具，可将 PDF（含扫描件）高质量转换为结构化 Markdown 或 JSON，保留标题、表格、公式等语义元素，适合本地化 RAG 预处理，官网 | GitHub

综上所述，高质量的数据准备是 RAG 系统成功的前提。通过系统化的数据治理流程与先进的智能文档技术相结合，不仅能有效解决非结构化数据带来的质量、结构与多模态挑战，还能为后续的检索与生成阶段提供干净、语义完整、结构清晰的输入基础。投入精力夯实这一阶段，将显著提升整个 RAG 系统的准确性、可靠性与实用性。

二

知识检索阶段

在 RAG 系统中，知识检索是连接用户问题与高质量答案的关键桥梁。即使拥有经过精心准备的结构化文档库，若检索模块无法准确、完整地召回相关信息，生成的答案仍可能偏离事实、遗漏重点或产生幻觉。尤其在面对模糊查询、复杂语义或多跳推理场景时，传统关键词匹配往往力不从心。因此，构建一个精准、鲁棒且上下文感知的检索机制，是提升 RAG 整体质量的核心环节。

常见问题

内容缺失：

当检索过程缺少关键内容时，系统会提供不完整、碎片化的答案 => 降低RAG的质量。

错过排名靠前的文档：

用户查询相关的文档时被检索到，但相关性极低，导致答案不能满足用户需求，这是因为在检索过程中，用户通过主观判断决定检索“文档数量”。理论上所有文档都要被排序并考虑进一步处理，但在实践中，通常只有排名top k的文档才会被召回，而k值需要根据经验确定。

不在上下文中：

从数据库中检索出包含答案的文档，但未能包含在生成答案的上下文中。这种情况通常发生在返回大量文件时，需要进行整合以选择最相关的信息。

如何提升知识检索阶段的质量？

通过查询转换澄清用户意图：明确用户意图，提高检索准确性。
采用混合检索和重排策略：确保最相关的文档被优先处理，生成更准确的答案。

（1）通过查询转换澄清用户意图

相似语义改写：

使用大模型将用户口语化问题改写成多个语义相近的查询，明确用户意图，提高检索准确性和召回多样性。

场景：

用户询问 “如何申请信用卡？

问题：

用户意图可能模糊，例如不清楚是申请流程、所需材料还是资格条件。

解决方法：

通过查询转换明确用户意图。

实现步骤：

意图识别：

使用自然语言处理技术识别用户意图。例如，识别用户是想了解流程、材料还是资格。
查询扩展：

根据识别结果扩展查询。例如：

如果用户想了解流程，查询扩展为“信用卡申请的具体步骤”
如果用户想了解材料，查询扩展为“申请信用卡需要哪些材料”
如果用户想了解资格，查询扩展为“申请信用卡的资格条件”

检索：

使用扩展后的查询检索相关文档。

示例：

用户输入：“如何申请信用卡？”

系统识别意图为 流程，扩展查询为 信用卡申请的具体步骤。

检索结果包含详细的申请步骤文档，系统生成准确答案。

代码示例：

例如，LangChain的 MultiQueryRetriever 支持多查询召回，再进行回答问题。

# 创建MultiQueryRetriever
retriever = MultiQueryRetriever.from_llm(
retriever=vectorstore.as_retriever(),
llm=llm
)
# 示例查询
query = "如何申请信用卡？"
# 执行查询
results = retriever.get_relevant_documents(query)

（2）合理设置TOP_K

**TOP_K：**返回排名前 K 的结果；

代码示例：

例如，LangChain的 MultiQueryRetriever 支持多查询召回，再进行回答问题。

docs = knowledgeBase.similarity_search(query, k=10)

（3）混合检索和重排策略

场景：

用户询问“信用卡年费是多少？”

问题：

直接检索可能返回大量文档，部分相关但排名低，导致答案不准确。

解决方法：

采用混合检索和重排策略。

实现步骤：

混合检索：

结合关键词检索和语义检索。比如：关键词检索：“信用卡年费”。
语义检索：

使用嵌入模型检索与“信用卡年费”语义相近的文档。
重排：

对检索结果进行重排。
生成答案：

从重排后的文档中生成答案。

示例：

用户输入：“信用卡年费是多少？”

系统进行混合检索，结合关键词和语义检索。

重排后，最相关的文档（如“信用卡年费政策”）排名靠前。

系统生成准确答案：“信用卡年费根据卡类型不同，普通卡年费为100元，金卡为300元，白金卡为1000元。”

综上，知识检索质量决定了 RAG 的信息上限。通过查询意图澄清、混合检索与重排、上下文融合优化，可有效缓解内容缺失、Top-K 偏差和关键信息遗漏等问题，确保“对的信息以对的方式被召回”，支撑可靠、准确的智能问答。

三

答案生成阶段

如果说数据准备是 RAG 的“地基”，知识检索是“桥梁”，那么答案生成就是最终面向用户的“门面”。即使前两阶段输出了高质量的结构化上下文，若大语言模型（LLM）在生成过程中未能准确提取、完整组织或忠实遵循事实，仍可能导致答非所问、信息残缺甚至“一本正经地胡说八道”。因此，通过精细化的提示工程与动态输出控制机制，引导模型稳定、可靠、合规地生成答案，是保障 RAG 系统可信度的最后一道防线。

常见问题

未提取：

正确答案出现在所提供的上下文中，但LLM却没有准确提取。这种情况通常发生在上下文中存在过多噪音或存在冲突的信息。

不完整：

尽管能够利用上下文生成答案，但信息缺失会导致对用户查询的答复不完整。

格式错误：

当prompt中的附加指令格式不正确时，大语言模型可能误解或曲解这些指令，从而导致错误的答案。

幻觉：

大模型可能会产生误导性或虚假性信息。

如何提升答案生成阶段的质量？

改进提示词模板
实施动态防护栏

（1）改进提示词模板

场景1：

用户询问“如何申请信用卡？

原始提示词：

根据以下上下文回答问题：如何申请信用卡？

改进后的提示词：

根据以下上下文，提取与申请信用卡相关的具体步骤和所需材料：如何申请信用卡？

场景2：

用户询问“信用卡的年费是多少？

原始提示词：

根据以下上下文回答问题：信用卡的年费是多少？

改进后的提示词：

根据以下上下文，详细列出不同信用卡的年费信息，并说明是否有减免政策：信用卡的年费是多少？

场景3：

用户询问“什么是零存整取？

原始提示词：

根据以下上下文回答问题：什么是零存整取？

改进后的提示词：

根据以下上下文，准确解释零存整取的定义、特点和适用人群，确保信息真实可靠：什么是零存整取？

如何对原有的提示词进行优化？

可以通过 DeepSeek-R1 或 QWQ 的推理链，对提示词进行优化：

信息提取：从原始提示词中提取关键信息。
需求分析：分析用户的需求，明确用户希望获取的具体信息。
提示词优化：根据需求分析的结果，优化提示词，使其更具体、更符合用户的需求。

（2）实施动态防护栏

动态防护栏（Dynamic Guardrails）是一种在生成式AI系统中用于实时监控和调整模型输出的机制，旨在确保生成的内容符合预期、准确且安全。它通过设置规则、约束和反馈机制，动态地干预模型的生成过程，避免生成错误、不完整、不符合格式要求或含有虚假信息（幻觉）的内容。

在RAG系统中，动态防护栏的作用尤为重要，因为它可以帮助解决未提取、不完整、格式错误、幻觉问题。

**场景一：**防止未提取？”

**用户问题：**如何申请信用卡？

上下文：

包含申请信用卡的步骤和所需材料。

动态防护栏规则：

检查生成的答案是否包含“步骤”和“材料”。如果缺失，提示模型重新生成。

示例：

错误输出：

申请信用卡需要提供一些材料。

防护栏触发：

检测到未提取具体步骤，提示模型补充。

**场景二：**防止不完整？”

**用户问题：**信用卡的年费是多少？

上下文：

包含不同信用卡的年费信息。

动态防护栏规则：

检查生成的答案是否列出所有信用卡的年费。如果缺失，提示模型补充。

示例：

错误输出：

信用卡A的年费是100元。

防护栏触发：

检测到未列出所有信用卡的年费，提示模型补充。

**场景三：**防止幻觉”

**用户问题：**什么是零存整取？

上下文：

包含零存整取的定义和特点。

动态防护栏规则：

检查生成的答案是否与上下文一致。如果不一致，提示模型重新生成。

示例：

错误输出：

零存整取是一种贷款产品。

防护栏触发：

检测到与上下文不一致，提示模型重新生成。

（3）如何实施动态防护栏

如何实现动态防护栏技术？

事实性校验规则，在生成阶段，设置规则验证生成内容是否与检索到的知识片段一致。例如，可以使用参考文献验证机制，确保生成内容有可靠来源支持，避免输出矛盾或不合理的回答。

如何制定事实性校验规则？

当业务逻辑明确且规则较为固定时，可以人为定义一组规则，比如：

规则1： 生成的答案必须包含检索到的知识片段中的关键实体（如“年费”、“利率”）。

规则2： 生成的答案必须符合指定的格式（如步骤列表、表格等）。

实施方法：

使用正则表达式或关键词匹配来检查生成内容是否符合规则。

例如，检查生成内容是否包含“年费”这一关键词，或者是否符合步骤格式（如“1. 登录；2. 设置”）。

综上，答案生成阶段的质量直接决定了用户对 RAG 系统的最终体验与信任度。通过优化提示词模板明确任务边界与输出要求，结合动态防护栏对生成内容进行实时校验与纠偏，可有效抑制未提取、不完整、格式错误和幻觉等典型问题。唯有让 LLM 在“有据可依、有规可循”的约束下发挥创造力，RAG 才能真正实现准确、完整、可信的智能问答。

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年 AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例？大模型电子书？这份资料帮你站在 “行业高度” 学 AI：

1. 100+本大模型方向电子书

在这里插入图片描述

2. 26 份行业研究报告：覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容，涵盖：

职业趋势：《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》；
商业落地：《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》；
领域细分：《AGI 在金融领域的应用报告》《AI GC 实践案例集》；
行业监测：《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT：听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会，包含百度、腾讯、字节等企业的一线实践：

在这里插入图片描述

安全方向：《端侧大模型的安全建设》《大模型驱动安全升级（腾讯代码安全实践）》；
产品与创新：《大模型产品如何创新与创收》《AI 时代的新范式：构建 AI 产品》；
多模态与 Agent：《Step-Video 开源模型（视频生成进展）》《Agentic RAG 的现在与未来》；
工程落地：《从原型到生产：AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗？这份面试资料帮你提前 “押题”，拒绝临场慌！

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景，包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题，每道题都附带思路解析：

2. 102 道 AI 大模型真题：直击大模型核心考点

针对大模型专属考题，从概念到实践全面覆盖，帮你理清底层逻辑：

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案，比如让很多人头疼的 “复读机问题”：

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

刚接触 AI 大模型，不知道该从哪学起？这份「AI大模型学习路线图」直接帮你划重点，不用再盲目摸索！

在这里插入图片描述

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口？别犹豫，这份免费资料就是你的 “起跑线”！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

《基于 FastAPI + LangGraph + LLM 大语言模型的通用 Agent 多智能体系统架构设计与开发实战、产业应用》

"""执行智能体任务，更新状态"""prompt = f"作为self . llm = llm async def execute(self , state : AgentState) - > AgentState : """执行智能体任务，更新状态""" prompt = f"作为 {self . role . value } ，当前状态: {