【AI大模型】MinerU2.5文档解析技术详解：从理论到实践的完整教程，建议收藏

MinerU2.5是一种高效的高分辨率文档解析视觉语言模型，采用两阶段处理架构：第一阶段进行全局布局分析，第二阶段对关键区域进行细粒度内容识别。模型使用Qwen2-Instruct-0.5B作为语言解码器，Qwen2-VL视觉编码器，通过三阶段训练方法获得强大的版面分析和内容识别能力。该模型支持文本、表格和公式等多种文档元素的高效解析，适用于复杂场景下的文档处理任务。

小涂Ss

721人浏览 · 2025-10-29 11:58:35

小涂Ss · 2025-10-29 11:58:35 发布

前言

pipline

layout+VLM

VLM finetune

下面再来看一个两阶段（一个VLM既做layout，也做OCR format）的VLM文档解析模型-MinerU2.5。

方法

MinerU2.5 的框架，在第一阶段，MinerU2.5 对下采样后的页面执行快速的全局布局分析。在第二阶段，MinerU2.5 利用布局分析结果从原始高分辨率文档中裁剪出关键区域，并在这些原始分辨率的局部区域内进行细粒度的内容识别（例如，文本、表格和公式识别）。

模型架构

语言解码器：LLM（Qwen2-Instruct-0.5B），M-RoPE 替换了原始的 1D-RoPE
视觉编码器：使用Qwen2-VL视觉编码器（NaViT-675M）进行初始化
patch merge：为了在效率和性能之间取得平衡，该架构在相邻的 2 × 2 视觉 token 上使用 pixel-unshuffe对聚合后的视觉 token 进行预处理，然后再将其输入大型语言模型。

训练方法

整体分三阶段训练:

阶段 0-模态对齐

图文对齐：仅训练两层 MLP，冻结其他模块。Image Caption数据集训练。
指令微调：解冻所有模块，使用VQA数据训练。

阶段 1-文档解析预训练

文档解析预训练阶段的目标是使VLM具备两种能力：版面分析和内容识别，该阶段是解冻所有模块训练。

训练数据：

版式分析：大规模模型标注数据与公开数据集的混合数据，以确保足够的规模和文档多样性。在版面分析方面，为兼顾训练效率，将完整文档图像缩放到固定分辨率（1036 × 1036），并相应调整坐标，使用提示 “Layout Detection:”

数据样式：

<|box_start |>100 200 300 400<| box_end|><|ref_start|>title <|ref_end|><|rotate_up|><|box_start |>400 500 600 700<| box_end|><|ref_start|>text <|ref_end|><|rotate_up|>

内容识别：注意：下面进行格式转化时，输入图像将保持其原始分辨率，但图像 token 数量将限制在 4 到 2048 的值域内。若超过此限制，图像将相应地进行缩放。

文本：输出为markdown格式，提示词：“Text Recognition:”
表格：输出为以 OTSL 格式（采用 OTSL 是因为它相较于HTML 作为视觉语言模型的目标具有显著优势。其极简设计具有与表格视觉二维矩阵直接的结构对应关系，**将结构 token 数量从超过 28 个减少到仅 5 个，并将平均序列长度缩短约50%**。这使得它成为模型生成时更高效的输出目标。最后一阶段是将 OTSL 输出简单转换为标准HTML。），提示词：“Table Recognition:”
公式：输出为latex公式，提示词：“Formula Recognition:”

训练设置： 初始化阶段0的权重，训练了 2 轮次。每轮次总共包含 690 万个样本，其中包括 230 万用于版面分析，240 万用于文本块，110 万用于公式块，以及 110 万用于表格块。

第二阶段-文档解析微调

目标是在保持 VLM 已具备的检测与解析能力的基础上，进一步提升在复杂场景下的解析性能。

训练数据：

通过数据工程从预训练数据集中抽取了高质量且多样化的样本，并将其纳入第二阶段训练，确保对不同文档元素类型的广泛覆盖。
难样本人工标注

训练配置： 使用阶段1模型初始化，训练3轮。布局分析用 43 万样本，文本块用 300 万样本，公式块用 147 万样本，表格块用 140 万样本。

数据增强策略

增强模型在开放世界情景下处理多样化文档的鲁棒性，在第一阶段和第二阶段均设计了多种针对性的数据增强策略。这些增强方法模拟了常见的文档干扰类型。

数据增强策略

数据引擎

版面多样性：采用页面级图像聚类从广泛的视觉版面和风格中选择样本。
文档类型多样性：利用文档元数据（例如，学科、标签），进行分层采样，以确保学术论文、教科书、报告和演示文稿等类型的均衡表示。
元素平衡：初步的检测模型有助于确保所筛选数据集中关键元素（如标题、段落、表格、公式和图表）的类别分布均衡。
语言平衡：对数据进行筛选，以保持中文和英文文档的可比数量。

实验性能

最后

为什么要学AI大模型

当下，⼈⼯智能市场迎来了爆发期，并逐渐进⼊以⼈⼯通⽤智能（AGI）为主导的新时代。企业纷纷官宣“ AI+ ”战略，为新兴技术⼈才创造丰富的就业机会，⼈才缺⼝将达 400 万！

DeepSeek问世以来，生成式AI和大模型技术爆发式增长，让很多岗位重新成了炙手可热的新星，岗位薪资远超很多后端岗位，在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合，飞速发展，成为炙手可热的新风口，企业非常需要了解AI、懂AI、会用AI的员工，纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型，后台也经常会有小伙伴咨询学习路线和学习资料，我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料，这些学习资料不仅深入浅出，而且非常实用，让大家系统而高效地掌握AI大模型的各个知识点。