【值得收藏】小白也能懂！RAG文档分块终极指南：ragflow的14种场景化处理方案

文章详细介绍了ragflow开源RAG框架的文档分块策略，针对5大类14种不同文件类型设计了定制化分块逻辑。通过"按文件类型+结构定制分块策略"的方式，确保每个chunk都有完整语义，提高检索精度。揭示了ragflow分块设计的5个底层逻辑，强调好的分块是理解文档后的重组，让AI能读懂每个chunk的语义。

大模型玩家

472人浏览 · 2025-12-01 11:35:26

大模型玩家 · 2025-12-01 11:35:26 发布

在 RAG（检索增强生成）的全流程里，文档分块（Chunk） 是最容易被忽略，却又最影响最终效果的关键环节 —— 分块太粗会漏掉关键细节，太细会切断语义逻辑，甚至让 AI “读不懂” 上下文。

而开源 RAG 框架 ragflow，偏偏在 “分块” 这件事上做到了 “极致定制”：针对 14 类不同场景的文件，设计了完全不同的分块逻辑，既保留文档原有结构，又能精准适配向量检索需求。今天就带大家一次性吃透这些分块策略，搞懂 RAG “精准检索” 的底层逻辑。

为什么 ragflow 不搞「一刀切」分块？

很多人做文档分块时，习惯用 “固定长度切割”（比如每 500 个 token 分一块），但实际场景里：

•论文需要保留 “摘要 - 引言 - 结论” 的层级，不能乱切；•表格要完整提取行列关系，切一半就废了；•音频得先转文字，再按语义分块……

ragflow 的核心思路是：按文件 “类型 + 结构” 定制分块策略，让每个 chunk 都有 “完整语义”，这也是它检索精度比普通分块高的关键。

5 大类 + 14 种文件：分块策略全解析

下面我们按 “使用场景” 分类，逐个拆解每类文件的分块逻辑，你可以直接对号入座复用！

一、通用基础类：应对 80% 常规场景的「万能工具」

这类文件的核心是 “兼容性强”，覆盖大部分日常文档，适合不想单独定制的场景。

1. naive.py：所有文件的「保底方案」

作为 ragflow 最基础的分块模块，它能处理 PDF、DOCX、Excel、TXT 等几乎所有格式，逻辑很实用：

•先选解析器：PDF 用PdfParser、Excel 用ExcelParser，自动匹配文件类型；•再按规则分块：按配置的chunk_token_num（比如 500token）和分隔符（换行、句号）切割；•最后补上下文：表格、图片会自动附加周围文本，避免 “孤立 chunk”；•还支持超链接提取、嵌入文件递归分块（比如 DOCX 里嵌了 PDF，会自动拆出来处理）。

2. one.py：追求「完整上下文」的特殊方案

如果你的需求是 “一个文件只生成一个 chunk”（比如短文档、合同），用 one.py 就对了：

•不管是 PPTX 还是 Excel，都会完整保留原始文本顺序；•支持自定义chunk_token_num（可设很大），避免切割；•PDF 会自动处理表格、图片，整合到一个 chunk 里。

二、专业文档类：按「行业特性」定制，不丢关键信息

这类文件（书籍、法律、论文等）的核心是 “层级结构强”，分块必须保留章节、标题关系。

1. 书籍（book.py）：多格式 + 层次化合并

处理 PDF/DOCX/TXT 格式的书籍时，最怕 “章节断开”，它的解决办法是：

•PDF 先做 OCR + 布局分析，提取正文、表格；•按 “标题层级” 合并：用hierarchical_merge（层次化合并）把 “大标题 + 小标题 + 正文” 归为一个 chunk；•表格、图片会附加 “所在章节标题”，比如 “第 3 章数据统计 - 表 3.1 销售数据”。

2. 法律文件（laws.py）：去掉冗余，突出「条款逻辑」

法律文件（如法规、合同）有大量 “目录 + 条款”，分块时要先 “去水”：

•自动移除目录部分，避免检索到重复内容；•把 “XX 条：XXX” 的冒号前内容转成标题（比如 “第二条：适用范围”→ 标题 “第二条”，内容 “适用范围”）；•用tree_merge按条款层级分块（章→条→款），保证法律逻辑连贯。

3. 学术论文（paper.py）：精准提取「核心结构」

论文的关键是 “摘要、引言、结论”，它会：

•自动提取论文标题、作者、摘要（摘要单独成块，不切割）；•按 “标题频率” 识别层级（比如 “1. 引言” 是一级，“1.1 研究背景” 是二级）；•表格、公式会附带 “所在小节标题”，比如 “2. 实验方法 - 公式 2.1 损失函数”。

4. 手册（manual.py）：侧重「实操性」，表格优先

处理产品手册、操作指南时，表格和步骤是核心：

•PDF/DOCX 里的表格会转成 HTML 格式，完整保留行列；•按 “操作步骤” 分块（比如 “3.2 设备开机 - 步骤 1/2/3” 归为一个 chunk）；•图片会附加 “操作说明”，避免只看到图不知道用途。

5. 演示文稿（presentation.py）：每页一个 chunk，适配「PPT 逻辑」

PPTX 或 PDF 版演示文稿，分块逻辑完全贴合 “一页一个主题”：

•PPTX 会提取每页文本 + 缩略图，生成一个 chunk；•PDF 版会按页码切割，每页独立成块；•保留页码信息，方便检索后定位原文件位置。

三、多媒体类：先「转文字」，再按语义分块

音频、图片、视频这类非文本文件，核心是 “先转成可处理的文本”。

1. 音频（audio.py）： Speech2Text+token 切割

处理 MP3/WAV 等音频时，步骤很清晰：

•调用LLMType.SPEECH2TEXT模型（比如 Whisper）转文字；•用临时文件存音频数据，转完自动清理，不占内存；•再按 token 数切割文字，生成带 “音频来源” 标签的 chunk。

2. 图片 / 视频（picture.py）：OCR + 图描述双保险

图片（JPG/PNG）和视频（MP4/MOV）的处理逻辑类似：

•先做 OCR 提取文字（比如图片里的表格、文字说明）；•如果 OCR 结果太短（比如纯风景图），调用LLMType.IMAGE2TEXT生成描述（比如 “蓝色背景的产品包装盒，上面有 XXlogo”）；•最后按语义分块，附加 “媒体类型” 标签（图片 / 视频帧）。

四、结构化数据类：按「数据关系」分块，不破坏结构

表格、问答对、标签文件的核心是 “保留数据关联”，不能按纯文本切。

1. 表格（table.py）：完整提取行列，支持多级表头

Excel/CSV/TSV 表格最忌 “切行切列”，它的处理方式很聪明：

•自动识别多级合并单元格（比如 “季度→Q1→销售额”）；•数据类型自动标注（int/float/text，比如 “100” 标为 int，“备注” 标为 text）；•生成 “字段名 + 数据” 的 chunk（比如 “用户 ID [text]：123；订单金额 [int]：99.9”），方便后续精准检索。

2. 问答对（qa.py）：自动提取 Q&A，适配「对话场景」

如果你的文档是 FAQ、问答手册，qa.py 能直接拆成 “问题 + 答案” 对：

•Excel/CSV：按列提取（比如 A 列是问题，B 列是答案）；•PDF/DOCX：按标题层级拆（比如 “Q：如何重置密码？A：步骤 1…”）；•Markdown：按#标签识别问题（比如 “# Q：XXX”）；•忽略错误行（比如只有问题没有答案的行），容错性强。

3. 标签文件（tag.py）：“内容 + 标签” 绑定，方便分类检索

处理 Excel/CSV 格式的标签文件（比如 “文章内容 + 分类标签”）时：

•要求两列结构：一列内容，一列标签（支持多标签，用逗号分隔）；•生成 chunk 时会绑定标签（比如 “内容：RAG 原理；标签：AI、检索”）；•提供label_question函数，支持按标签快速筛选（比如 “查所有标签为‘法律’的 chunk”）。

五、特殊场景类：针对「小众但关键」的文件

这类文件有独特的格式或需求，需要单独适配。

1. 邮件（email.py）：解析头 + 附件，不丢上下文

处理.eml 格式邮件时，核心是 “完整提取邮件结构”：

•先解析邮件头（发件人、收件人、主题），附加到 chunk 开头；•正文按naive_merge分块，支持 text/plain 和 text/html 格式；•附件会递归处理（比如附件是 PDF，会调用 naive.py 分块，再关联到邮件 chunk）。

2. 简历（resume.py）：结构化提取，多维度分块

简历的关键是 “提取关键信息”（姓名、工作经历、技能），它的逻辑很高效：

•调用本地简历解析服务，直接输出结构化数据；•按 “字段” 分块：姓名、联系方式、工作经历、项目经验等各成一个 chunk；•过滤无用字段（比如forbidden_select_fields4resume里的冗余信息）；•每个 chunk 带 “权重”（比如工作经历权重高于基本信息），检索时优先返回。

分块「通用设计密码」：5 个底层逻辑

不管是处理论文还是简历，ragflow 的分块都藏着 5 个通用设计，这也是它稳定可靠的原因：

1.统一接口：所有模块都用chunk函数作为入口，开发者不用记多个方法；2.解析器抽象：每种文件类型对应专属解析器（如PdfParser），后续加新格式只需加解析器，不用改核心逻辑；3.token 化标准：统一用rag_tokenizer处理文本，保证不同文件的 token 计数一致；4.上下文附加：表格、图片、附件都会绑定周围文本，避免 “孤立 chunk”；5.异常处理：支持进度回调（实时看处理进度）、错误捕获（比如文件损坏不崩溃）。