大模型RAG系统构建：PDF文档解析、切分与检索的完整代码教程

金融RAG系统技术实现全流程解析本文详细阐述了金融领域RAG系统的完整技术实现路径：解析阶段：采用结构化对象树保留PDF文档的层级、样式和版面信息，特别针对金融文档优化了表格解析和扫描件去噪方案，OCR准确率提升21%。切分模块：创新性实现语义感知切分与智能Overlap机制，通过文档树递归切分和基于句子边界的Overlap策略，有效解决传统固定切分导致的语义断裂问题。检索架构：构建混合检

Python程序员小泉

846人浏览 · 2026-01-11 21:36:56

Python程序员小泉 · 2026-01-11 21:36:56 发布

文章详细介绍了金融领域RAG系统的技术实现，从PDF文档到向量索引的完整流程：解析阶段将PDF转为结构化对象树保留文档结构；切分阶段基于语义边界生成带元数据的文本块；向量化阶段将文本转为向量表示；存储采用双库联动机制；检索模块实现向量与BM25关键词的混合检索架构，并通过Cross-Encoder精排。强调代码优化需围绕具体业务场景需求，如金融领域对专业术语的精准召回。

开篇

在之前的[一个金融研报RAG应用：「离线解析」和「在线问答」双链路详解]文章中，是从RAG系统的上帝视角，梳理了数据从入库到检索的流动逻辑。但当真的有一堆文档需要作为知识库给模型的时候，好像还是无从下手。😶

这篇文章是接着之前的金融研报项目，深入代码层面，梳理了从保险PDF文档到向量检索的代码逻辑。一共会分为四个部分，先从数据的角度梳理整个流程，再分别展开解析、切分、检索这三个模块～

（后面三章涉及到的代码会比较多，如果不太看得懂代码的话，可以看一看代码注释理解一下逻辑～）

从「静态文档」到「向量索引」

一个PDF文档「入库」的过程可以拆解为以下四个状态流转：

PARSED（已解析）-> CHUNKED（已切分）-> EMBEDDED（已向量化）-> INDEXED（已索引）

1、解析阶段：不仅仅是提取文字

如果只是简单的提取文本（text = pdf.read()），就会丢失掉最重要的**结构信息。**标题、正文、页眉、页脚、表格如果全部混成一团字符串，后面的切分就会一团糟。🤯

因此在工业级RAG中，解析阶段的输出不是一段文本，而是一个结构化的文档对象树：

层级结构：谁是父章节，谁是子章节。
样式信息：字号、加粗、缩进（这些是判断标题级别的重要依据）。
版面信息：表格的行列关系、图片的上下文位置。

👉 在这个阶段，文档仅仅只是被「看懂」了。

2、切分阶段：元数据的诞生之地

拿着上一步得到的结构化对象就可以开始切分了。

这个阶段的核心任务有两个：

确定边界：利用解析阶段得到的章节、段落信息，尽量让切分点落在自然的语义边界上（比如句号、段落结束符），而不是生硬地切断一句话。
生成元数据（Metadata）：不是切完就扔进数据库，而是在切分的同时，给每个Chunk办一张身份证：🪪

chunk_id：它的唯一标识。
section_path：它属于《保险条款》>第二章>责任免除。
page_num：它在第 15 页。
prev/next_id：它的前文是Chunk A，后文是Chunk B。

👉 此时得到的是一批「携带丰富身份信息的文本块」。

3、向量化阶段：文本转数学

在这个阶段，系统会遍历上一步生成的所有Chunk，提取其中的 content 字段，调用 Embedding 模型（如 bge-large-zh），将其转化为一个高维向量。

👉 这里只对文本做向量化，元数据通常不需要向量化，而是直接存储用于过滤。

4、存储与索引：双库联动

存完了是不是就能检索了呢？

还不可以～为了兼顾「搜得准」和「看得懂」，通常会把数据存两份（逻辑上是这样，具体按情况而定～）：

向量索引：存放chunk_id+vector。

👉 用来算余弦相似度，快速找到Top-K的chunk_id。
文档存储：存放chunk_id+ text+ metadata。

👉 用来存原始内容。当向量索引找到ID后，去这里把人能看懂的字和元数据也捞出来。

再回顾一下这条链路～

PDF -> 解析成结构化对象。
结构化对象 -> 切分成带元数据的Chunk。
Chunk -> 向量化成 Vector。
Vector -> 建索引，发布上线。
在线检索 -> Query 变向量，去索引里找 Chunk，最后由 LLM 生成答案。

搞清楚了整体的流程，接下来深入到每一个环节的代码实现，就会发现：所有复杂的代码，无非是在为这张流程图里的某一个箭头做优化。👇

解析模块

解析的质量直接决定了RAG的上限。

虽然可以直接使用通用的PyPDF2，但结果可能会不尽人意；也可以使用Deepdoc (LayoutLMv3 + PaddleOCR)，但面对复杂场景仍需定制化改造。👇

1、攻克表格解析

保险文档中最难处理的是表格。文档中存在三类表格，单一的解决方案无法通吃。这个项目中设计了一套分流策略：

有边框表格：Deepdoc 原生处理（准确率 95%）。
无边框/半结构化表格：这是重灾区，Deepdoc识别率仅62%。

针对无边框表格，引入MinerU 2.5，但因为它推理慢，不能全部都用这个方法，需要在解析前置加一个分类器，只对由于「对齐」但「无框」的区域调用MinerU：

2、扫描件的去噪与去水印

金融存量文档中有30%是扫描件，且常常会带有「仅供内部使用」的红色印章或水印。这些干扰会导致 OCR 将文字识别为乱码。

这个项目的做法是摒弃传统的全局高斯滤波（会模糊文字），采用动态预处理Pipeline：

👉 这一步的优化让OCR在扫描件上的准确率直接提升了21个百分点。

切分模块

在之前的那篇文章中提到了naive_merge（基于Token数的简单装箱）。但这种方法在保险条款面前则会失效。比如：

条款原文：“本保险承保…但以下情况除外：(1)xx…(2)yyy…”

固定切分的问题：切分点恰好落在“但以下情况除外”之前。

Chunk A：“本保险承保…”

Chunk B：“(1)xx…(2)yyy…”

后果：用户问“xx保不保？”系统检索到 Chunk B，但缺少了前文的“除外”限定，导致 LLM 回答“保”。🫠

为了解决这个问题，需要全面重构切分策略，从「固定长度切分」进化到了「语义感知切分+智能 Overlap」。👇

1、基于文档树的递归切分

👉 保留文档的章节感。

切分逻辑不再是线性的，而是树状的：优先按章节切 -> 章节过长按小节切 -> 还长按段落切

2、智能Overlap

👉 传统的Overlap（如固定 100 tokens）可能会把句子拦腰截断。

因此可以设计基于句子边界的Overlap。它会回溯前一个Chunk，找到最近的句号、问号或感叹号，确保Overlap的部分是一句完整的话。

此外，如果Chunk里只存了文本和向量，却缺少元数据，那么这个chunk就失去了灵魂。🙂‍↔️ 比如无法实现以下功能：

答案溯源

用户问：“核辐射在保障范围内吗？”

系统回答：“根据第3条保险责任 > 3.2 责任免除 > (2)，核辐射不在保障范围。”
检索加权

关键条款（责任、免责、费率）的权重×1.5

识别方法：关键词匹配 + 章节标题判断
上下文扩展

如果检索到的chunk语义不完整，自动拉取前后chunk。

例如：检索到"但以下除外：“，自动拉取前一个chunk的"承保范围”。

👉 所以不能仅仅是存储文本，需要将Chunk定义为一个富信息的对象。可以扩展为四个维度：基础信息、结构信息、类型信息和位置信息。

检索模块

到了检索阶段，发现单一的向量检索在金融领域有致命弱点：对低频专业词汇不敏感。比如：

用户问：“犹豫期退保扣费吗？”

向量模型可能会召回「退保流程」相关的文档，因为它觉得语义很近，但却漏掉了包含「犹豫期」这个精确关键词的条款。

因此需要构建混合检索架构，并引入了动态权重。👇

1、架构升级：向量+BM25

向量检索：使用 bge-large-zh-v1.5 ，处理语义查询（如“孩子摔伤怎么赔”）。
关键词检索：使用BM25，处理精确查询。

2、核心算法：基于意图识别的动态权重

这是检索系统的核心部分，不能对所有的用户问题都使用固定的0.5 * Vector + 0.5 * BM25。需要先判断用户的意图：是查定义（精确）还是问咨询（语义）呢？

3、结果融合：RRF (倒数排名融合)

如果使用加权求和，需要对分数做归一化（Vector是0-1，BM25可能是 0-50），这样很难调平。但如果使用RRF，它不看分数，只看排名，会更加鲁棒：

4、Cross-Encoder精排

为什么还要进行一次精排呢？😯

👉 经过混合检索召回的Top-10文档，虽然相关，但排序可能不准。

因此额外引入 bge-reranker-large 模型进行精排。但精排速度慢，一般只精排Top-10，而不是Top-50：

向量检索（Bi-Encoder）是「用户query」和「知识库文档」独立编码；
而 Cross-Encoder 是将query和文档拼接在一起输入 BERT，能捕捉更细微的交互语义。

至此，检索链路的使命完成～

如何系统的学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新，更多的大模型学习和面试资料已经上传带到CSDN的官方了，有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

在这里插入图片描述