别再让噪声干扰RAG!Hybrid Search+Reranker终极指南:10步滤除无关信息,召回率飙升90%!
在AI的世界里,有句老话叫“Garbage In, Garbage Out”。对于RAG系统而言,检索环节就是那个“In”,如果检索不到精准、全面的信息,那么即便是最强的LLM也只能望“材”兴叹,甚至开始一本正经地“胡说八道”,俗称产生幻觉。 本篇将聚焦于检索前和检索中的优化,从数据的源头和查询的入口解决“找不到”和“找不准”的核心痛点。
引言
在AI的世界里,有句老话叫“Garbage In, Garbage Out”。对于RAG系统而言,检索环节就是那个“In”,如果检索不到精准、全面的信息,那么即便是最强的LLM也只能望“材”兴叹,甚至开始一本正经地“胡说八道”,俗称产生幻觉。 本篇将聚焦于检索前和检索中的优化,从数据的源头和查询的入口解决“找不到”和“找不准”的核心痛点。
一:优化数据源:索引构建的最佳实践
核心痛点:粗暴地按固定长度切分文档,就像把一本好书随机撕成碎片,重要的上下文和语义关联都丢失了。
1.1 智能分块
放弃按字符数切分的“一刀切”模式,转向更智能的方法:
- 语义分块: 利用算法(或LLM)识别文本中语义的自然断点,如段落、标题或一个完整的概念单元,确保每个被索引的文本块都“言之有物”。
- 句子分块: 以完整的句子为单位进行切分,这是最细粒度的语义单元。
1.2 父文档检索器
这是对“句子窗口检索”更通用、更强大的实现,也是我为您补充的一个关键策略。
- 原理:
- 索引时:我们将一份文档切分成许多小的“子文档”(比如单个句子),并对这些“子文档”进行向量化。同时,我们保留一份完整的、较大的“父文档”(比如整个段落或页面)。
- 检索时:我们用用户查询去匹配那些精细的“子文档”。
- 返回时:一旦命中某个“子文档”,我们不返回这个小片段,而是返回它所属的那个完整的“父文档”作为上下文。
- 优点:兼具检索的精准度(匹配小块)和上下文的完整性(返回大块),效果拔群。
1.3 从文档生成QA对:创造更多检索入口
这是另一项极大提升召回率的王牌策略。其核心思想是:用户的提问方式千变万化,直接用问题去匹配一段陈述性的文档,在语义上可能存在鸿沟。但用“问题”去匹配“问题”,则要容易和精准得多。
- 原理:
- 对每一个文档块,我们调用LLM,反向生成几个用户可能会提出的、能够被这个文档块回答的问题。
- 在构建索引时,我们只对这些新生成的“代理问题”进行向量化。
- 同时,我们将这些“代理问题”全部链接到它们所源自的那个原始文档块的ID。
- 当用户提问时,系统会在“代理问题”的向量库中进行搜索。一旦匹配成功,系统不会返回这个代理问题,而是通过ID找到并返回那个包含完整答案的原始文档块。
- 优点: 为单个知识点创建了多个不同的语义入口,即使用户的提问方式很刁钻,只要能和其中一个代理问题对上,就能找到正确答案,召回率大大提升。
from langchain.storage import InMemoryStore
1.4 元数据与图谱
- 元数据: 为每个文档块打上丰富的“标签”(如来源、日期、作者、章节等),这能让你在检索时进行精确过滤,是实现企业级知识管理的基础。
- 图RAG: 对于高度结构化、关系复杂的知识(如组织架构、产品依赖关系),构建知识图谱能让RAG处理“A和B有什么关系?”这类多跳查询。
二:理解用户意图:查询转换策略
核心痛点:用户的问题往往很模糊或角度单一,直接拿去检索,就像用一把钥匙去试一整面墙的锁。
2.1 查询扩展
- 原理: 让LLM扮演“头脑风暴师”,根据用户的原始问题,自动生成多个不同角度、但语义相似的子问题。然后用所有问题去“围剿”答案,最后合并结果。
- 优点: 大幅提升召回率,尤其擅长处理模糊和多义性查询。
from langchain.retrievers import MultiQueryRetriever
2.2 RAG-Fusion
- 原理: 这是MultiQueryRetriever的进化版。它同样生成多个子查询,但在合并结果时,使用倒数排序融合 (RRF) 算法,能智能地将那些在多次不同查询中都排名靠前的“共识”文档,提升到最前面。
- 优点: 相比简单合并,能更有效地筛选出最核心、最相关的结果。
from langchain_core.prompts import ChatPromptTemplate
2.3 “后退一步”提示
- 原理: 当用户问得太具体时,先让LLM“后退一步”,提炼出一个更概括、更高层的问题。然后用“具体问题”+“概括问题”一起检索,从而同时捕获细节与背景。
- 优点: 为LLM提供更全面的视角,避免因问题太专而找不到信息。
from langchain_core.runnables import RunnableParallel, RunnablePassthrough
2.4 假设性文档嵌入
- 原理: 先让LLM根据用户问题“凭空”生成一个理想的、完美的答案。然后,用这个“假想答案”的向量去检索真实文档。
- 优点: “假想答案”在语义上无限接近最终答案,因此它的向量可以作为一枚精准的“语义导弹”,高效地命中目标文档。
第三章:融合关键词与向量:混合搜索的实现
核心痛点:单纯的向量搜索(语义相似)可能会忽略专有名词、代码、ID等必须精确匹配的关键词。
- 原理: 将现代的向量搜索与传统的关键词搜索(稀疏检索,如BM25)结合起来。一个负责理解“意思”,一个负责锁定“词语”,取长补短。
- 优点: 极大地提升了检索的鲁棒性,在需要精确匹配和语义理解的场景下都能表现出色。LangChain的EnsembleRetriever就是为此而生。
# 示例: 使用 EnsembleRetriever 实现混合搜索from langchain.retrievers import EnsembleRetriever
在本篇文章中,我们探讨了多种用于优化RAG系统的检索机制,包括索引构建的最佳实践、多样的查询转换策略以及混合搜索的实现。这些技术旨在从根本上提升检索的准确性与召回率。
然而,获取初步的文档列表只是整个流程的第一步。这些结果在相关性上可能仍然参差不齐,包含了与问题不直接相关的噪音信息。因此,下一步的关键任务,就是如何对这些初步结果进行有效的后处理与筛选。
如何学习大模型 AI ?
我国在AI大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着Al技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国Al产业的创新步伐。加强人才培养,优化教育体系,国际合作并进,是破解困局、推动AI发展的关键。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
2025最新大模型学习路线
明确的学习路线至关重要。它能指引新人起点、规划学习顺序、明确核心知识点。大模型领域涉及的知识点非常广泛,没有明确的学习路线可能会导致新人感到迷茫,不知道应该专注于哪些内容。
对于从来没有接触过AI大模型的同学,我帮大家准备了从零基础到精通学习成长路线图以及学习规划。可以说是最科学最系统的学习路线。
针对以上大模型的学习路线我们也整理了对应的学习视频教程,和配套的学习资料。
大模型经典PDF书籍
新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路!
配套大模型项目实战
所有视频教程所涉及的实战项目和项目源码等
博主介绍+AI项目案例集锦
MoPaaS专注于Al技术能力建设与应用场景开发,与智学优课联合孵化,培养适合未来发展需求的技术性人才和应用型领袖。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
为什么要学习大模型?
2025人工智能大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
适合人群
- 在校学生:包括专科、本科、硕士和博士研究生。学生应具备扎实的编程基础和一定的数学基础,有志于深入AGI大模型行业,希望开展相关的研究和开发工作。
- IT行业从业人员:包括在职或失业者,涵盖开发、测试、运维、产品经理等职务。拥有一定的IT从业经验,至少1年以上的编程工作经验,对大模型技术感兴趣或有业务需求,希望通过课程提升自身在IT领域的竞争力。
- IT管理及技术研究领域人员:包括技术经理、技术负责人、CTO、架构师、研究员等角色。这些人员需要跟随技术发展趋势,主导技术创新,推动大模型技术在企业业务中的应用与改造。
- 传统AI从业人员:包括算法工程师、机器视觉工程师、深度学习工程师等。这些AI技术人才原先从事机器视觉、自然语言处理、推荐系统等领域工作,现需要快速补充大模型技术能力,获得大模型训练微调的实操技能,以适应新的技术发展趋势。
课程精彩瞬间
大模型核心原理与Prompt:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为Al应用开发打下坚实基础。
RAG应用开发工程:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。
Agent应用架构进阶实践:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。
模型微调与私有化大模型:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。
顶尖师资,深耕AI大模型前沿技术
实战专家亲授,让你少走弯路
一对一学习规划,职业生涯指导
- 真实商业项目实训
- 大厂绿色直通车
人才库优秀学员参与真实商业项目实训
以商业交付标准作为学习标准,具备真实大模型项目实践操作经验可写入简历,支持项目背调
大厂绿色直通车,冲击行业高薪岗位
文中涉及到的完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
更多推荐
所有评论(0)