大模型工程师必备:RAG系统22种分块策略实战解析(建议收藏)
本文聚焦RAG系统核心痛点——分块策略,详解22种从基础到高级的分块方法,包括按换行符、固定大小、滑动窗口等基础策略,以及语义分块、递归分块、多模态分块等高级技术。针对不同数据类型和使用场景,提供精准选择指南,帮助解决模型"找不到信息"或产生"幻觉"的问题,提升RAG系统性能。文章还附带大模型学习资源,助力读者系统掌握AI技术。
1、RAG 系统的“痛点”:分块
对于许多 AI 工程师来说,检索增强生成(RAG)是一个让人又爱又恨的技术。理论上,它非常简单:从你的私有中知识库找到相关信息,然后让大语言模型(LLM)基于这些信息生成回答。但在实际操作中,面对海量混乱的数据,你往往会陷入无尽的调试循环:

- 调整文本块(Chunking)
- 切换嵌入模型(Embedding models)
- 更换检索器(Retrievers)
- 微调排序器(Rankers)
- 重写提示词(Prompts)
即便如此,你可能还是会收到模型冷冰冰的回复:“我找不到足够的信息来回答你的问题。”更糟糕的是,它还可能一本正经地输出完全错误的答案,也就是我们常说的“幻觉”。
2、核心秘诀:分块的艺术
RAG 系统中有许多复杂的组件,但分块(Chunking)才是默默决定整个系统成败的关键。不同的数据类型、文件格式、内容结构和使用场景,都需要量身定制的分块策略。一旦分块出错,你的模型就会“摸不着头脑”,无法精准地捕捉到核心信息。
为了解决这个难题,本文将深入解析 22 种分块策略,从基础到进阶,并为你提供何时该使用哪种策略的指南,让你的 RAG 系统真正高效运转。
下文详细剖析之。
RAG 21 种分块策略剖析
一、基础分块策略(处理简单的文本结构)
1. 基础分块法(按换行符分割)
- 原理:遇到换行符就分割文本,简单直接。
- 适用场景:适用于内容按行分隔的文本,比如:笔记、FAQ、聊天记录或每行都包含完整语义的转录稿。
2. 定长分块法(固定大小分块)
- 原理:按固定的字符数或单词数切割文本,即使会切断句子或语义单元。
- 适用场景:适用于原始、杂乱的非结构化文本,比如:扫描文档、质量较差的转录稿。
3. 滑动窗口分块法
- 原理:类似定长分块,但每个文本块与前一块有重叠,以保持上下文的连贯性。
- 适用场景:适合需要保持长句间逻辑关系的文本,比如:议论文、叙述性报告。
4. 按句分块法
- 原理:在句子结尾(句号、问号、感叹号)处分割文本。
- 适用场景:适用于语义清晰的规整文本,比如:技术博客、文档摘要。
5. 按段分块法
- 原理:依据段落(通常以双换行符为界)分割文本。
- 适用场景:当按句分块过于零碎时,或处理已具备段落结构的文档,比如:博客文章、研究报告。
6. 按页分块法
- 原理:将每个物理页面视为一个独立的文本块。
- 适用场景:适用于有固定页面的文档,比如:PDF、演示文稿,以及需要引用页码的检索场景。
二、高级分块策略(处理复杂的数据结构)
7. 按预定结构分块法
- 原理:根据固定的结构化元素(比如:HTML 标签、JSON 字段)分割文本。
- 适用场景:处理系统日志、JSON 记录、CSV 文件或 HTML 文档等结构化数据。
8. 基于文档层级的分块法
- 原理:根据文档本身的层级结构(标题、子标题、章节)进行分块。
- 适用场景:适用于有清晰章节结构的技术文章、操作手册、学术论文。
9. 基于关键词的分块法
- 原理:在预设关键词出现的地方分割文本,将它们作为新的逻辑断点。
- 适用场景:文档没有标题但有标志性关键词(如“Note”、“Summary”)时使用。
10. 基于实体的分块法
- 原理:使用命名实体识别(NER)技术,将与特定实体(人物、地点、产品)相关的文本分组。
- 适用场景:处理新闻报道、法律合同或任何实体对理解至关重要的文件。
11. 基于词元数的分块法
- 原理:通过分词器(Tokenizer)按词元数量分割文本。
- 适用场景:适用于无标题、无段落的非结构化文档,尤其是在 LLM 词元限制较低时。
12. 基于主题的分块法
- 原理:使用主题建模或聚类算法,将语义相关的句子或段落合并为一组。
- 适用场景:文档涵盖多个主题,且主题转换平缓,没有明确的标题或关键词标记。
13. 表格感知分块法
- 原理:独立识别并处理表格内容,将其转换为 JSON 或 Markdown 格式。
- 适用场景:处理包含表格的文档。
14. 内容感知分块法
- 原理:根据内容类型(段落、表格、列表)动态调整分块策略。
- 适用场景:处理混合格式的文档,需保持原生格式完整性的场景。
15. 上下文增强分块法
- 原理:在嵌入之前,使用 LLM 为每个文本块注入简短且相关的上下文。
- 适用场景:处理财报、合同等复杂文档,前提是知识库内容在 LLM 词元限制内。
16. 语义分块法
- 原理:基于嵌入相似度,聚合语义相关的句子或段落。
- 适用场景:当基础分块法失效时,或处理包含混杂主题的长文档。
17. 递归分块法
- 原理:先使用大粒度分隔符(比如:段落)分块,如果分块过大,再递归使用小粒度分隔符(比如:句子)继续分割,直到满足大小要求。
- 适用场景:处理句子长度不规则、不可预测的文本,如访谈记录。
18. 嵌入优先分块法
- 原理:先将所有句子嵌入,再根据相邻句子的相似度合并或拆分。
- 适用场景:适用于完全无结构的文档,或当基础方法效果不佳时。
19. 基于大模型/智能体的分块法
- 原理:将分块决策完全交给 LLM,由其自主判断如何分割文本。
- 适用场景:内容非常复杂、结构不明确,需要类似人类判断力来分块的场景。
20. 分层分块法
- 原理:将文本按多个层次(章节、段落)分块,以不同粒度检索信息。
- 适用场景:处理有清晰层次结构的文档,希望同时探索整体概述和详细信息的场景。
21. 多模态分块法
- 原理:针对不同类型的内容(文本、图像、表格)采用不同的分块策略。
- 适用场景:处理包含多种媒体形式的文档。
22. BONUS:混合分块法
-
原理:融合多种分块技术、启发式规则和 LLM,以提升分块的可靠性。
-
适用场景:当单一方法不足以应对复杂数据结构时。
普通人如何抓住AI大模型的风口?
领取方式在文末
为什么要学习大模型?
目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。
目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!
最后
只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!
在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
大模型全套学习资料展示
自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!
01 教学内容

-
从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!
-
大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
02适学人群
应届毕业生: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。

vx扫描下方二维码即可
本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!
03 入门到进阶学习路线图
大模型学习路线图,整体分为5个大的阶段:
04 视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
05 行业报告+白皮书合集
收集70+报告与白皮书,了解行业最新动态!
06 90+份面试题/经验
AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限
只展示部分资料
并且还在持续更新中…
真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
更多推荐


所有评论(0)