简介

文章详细解析了RAG系统中决定成败的关键环节——分块策略,介绍了22种从基础到高级的分块方法。针对不同数据类型、文件格式和场景需求,作者提供了量身定制的分块策略指南,包括基础分块法(按换行、定长、滑动窗口等)和高级分块法(按结构、层级、关键词、实体等)。正确选择分块策略能有效解决RAG系统"找不到信息"和"幻觉"问题,显著提升大模型应用效果。


1、RAG 系统的“痛点”:分块

对于许多 AI 工程师来说,检索增强生成(RAG)是一个让人又爱又恨的技术。理论上,它非常简单:从你的私有中知识库找到相关信息,然后让大语言模型(LLM)基于这些信息生成回答。但在实际操作中,面对海量混乱的数据,你往往会陷入无尽的调试循环:

  • 调整文本块(Chunking)
  • 切换嵌入模型(Embedding models)
  • 更换检索器(Retrievers)
  • 微调排序器(Rankers)
  • 重写提示词(Prompts)

即便如此,你可能还是会收到模型冷冰冰的回复:“我找不到足够的信息来回答你的问题。”更糟糕的是,它还可能一本正经地输出完全错误的答案,也就是我们常说的“幻觉”。

2、核心秘诀:分块的艺术

RAG 系统中有许多复杂的组件,但分块(Chunking)才是默默决定整个系统成败的关键。不同的数据类型、文件格式、内容结构和使用场景,都需要量身定制的分块策略。一旦分块出错,你的模型就会“摸不着头脑”,无法精准地捕捉到核心信息。

为了解决这个难题,本文将深入解析 22 种分块策略,从基础到进阶,并为你提供何时该使用哪种策略的指南,让你的 RAG 系统真正高效运转。

下文详细剖析之。

RAG 21 种分块策略剖析

一、基础分块策略(处理简单的文本结构)

1. 基础分块法(按换行符分割)
  • 原理:遇到换行符就分割文本,简单直接。
  • 适用场景:适用于内容按行分隔的文本,比如:笔记、FAQ、聊天记录或每行都包含完整语义的转录稿。
2. 定长分块法(固定大小分块)
  • 原理:按固定的字符数或单词数切割文本,即使会切断句子或语义单元。
  • 适用场景:适用于原始、杂乱的非结构化文本,比如:扫描文档、质量较差的转录稿。
3. 滑动窗口分块法
  • 原理:类似定长分块,但每个文本块与前一块有重叠,以保持上下文的连贯性。
  • 适用场景:适合需要保持长句间逻辑关系的文本,比如:议论文、叙述性报告。
4. 按句分块法
  • 原理:在句子结尾(句号、问号、感叹号)处分割文本。
  • 适用场景:适用于语义清晰的规整文本,比如:技术博客、文档摘要。
5. 按段分块法
  • 原理:依据段落(通常以双换行符为界)分割文本。
  • 适用场景:当按句分块过于零碎时,或处理已具备段落结构的文档,比如:博客文章、研究报告。
6. 按页分块法
  • 原理:将每个物理页面视为一个独立的文本块。
  • 适用场景:适用于有固定页面的文档,比如:PDF、演示文稿,以及需要引用页码的检索场景。

二、高级分块策略(处理复杂的数据结构)

7. 按预定结构分块法
  • 原理:根据固定的结构化元素(比如:HTML 标签、JSON 字段)分割文本。
  • 适用场景:处理系统日志、JSON 记录、CSV 文件或 HTML 文档等结构化数据。
8. 基于文档层级的分块法
  • 原理:根据文档本身的层级结构(标题、子标题、章节)进行分块。
  • 适用场景:适用于有清晰章节结构的技术文章、操作手册、学术论文。
9. 基于关键词的分块法
  • 原理:在预设关键词出现的地方分割文本,将它们作为新的逻辑断点。
  • 适用场景:文档没有标题但有标志性关键词(如“Note”、“Summary”)时使用。
10. 基于实体的分块法
  • 原理:使用命名实体识别(NER)技术,将与特定实体(人物、地点、产品)相关的文本分组。
  • 适用场景:处理新闻报道、法律合同或任何实体对理解至关重要的文件。
11. 基于词元数的分块法
  • 原理:通过分词器(Tokenizer)按词元数量分割文本。
  • 适用场景:适用于无标题、无段落的非结构化文档,尤其是在 LLM 词元限制较低时。
12. 基于主题的分块法
  • 原理:使用主题建模或聚类算法,将语义相关的句子或段落合并为一组。
  • 适用场景:文档涵盖多个主题,且主题转换平缓,没有明确的标题或关键词标记。
13. 表格感知分块法
  • 原理:独立识别并处理表格内容,将其转换为 JSON 或 Markdown 格式。
  • 适用场景:处理包含表格的文档。
14. 内容感知分块法
  • 原理:根据内容类型(段落、表格、列表)动态调整分块策略。
  • 适用场景:处理混合格式的文档,需保持原生格式完整性的场景。
15. 上下文增强分块法
  • 原理:在嵌入之前,使用 LLM 为每个文本块注入简短且相关的上下文。
  • 适用场景:处理财报、合同等复杂文档,前提是知识库内容在 LLM 词元限制内。
16. 语义分块法
  • 原理:基于嵌入相似度,聚合语义相关的句子或段落。
  • 适用场景:当基础分块法失效时,或处理包含混杂主题的长文档。
17. 递归分块法
  • 原理:先使用大粒度分隔符(比如:段落)分块,如果分块过大,再递归使用小粒度分隔符(比如:句子)继续分割,直到满足大小要求。
  • 适用场景:处理句子长度不规则、不可预测的文本,如访谈记录。
18. 嵌入优先分块法
  • 原理:先将所有句子嵌入,再根据相邻句子的相似度合并或拆分。
  • 适用场景:适用于完全无结构的文档,或当基础方法效果不佳时。
19. 基于大模型/智能体的分块法
  • 原理:将分块决策完全交给 LLM,由其自主判断如何分割文本。
  • 适用场景:内容非常复杂、结构不明确,需要类似人类判断力来分块的场景。
20. 分层分块法
  • 原理:将文本按多个层次(章节、段落)分块,以不同粒度检索信息。
  • 适用场景:处理有清晰层次结构的文档,希望同时探索整体概述和详细信息的场景。
21. 多模态分块法
  • 原理:针对不同类型的内容(文本、图像、表格)采用不同的分块策略。
  • 适用场景:处理包含多种媒体形式的文档。

22. BONUS:混合分块法

  • 原理:融合多种分块技术、启发式规则和 LLM,以提升分块的可靠性。

  • 适用场景:当单一方法不足以应对复杂数据结构时。

三、 AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!
在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述
​​

02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述
在这里插入图片描述


​​

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述
在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

在这里插入图片描述
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐