在这里插入图片描述

📖标题:OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models
🌐来源:arXiv, 2601.21639v1

🌟摘要

大型视觉语言模型的发展推动了管理和应用海量多模态数据的需求,使得从视觉图像中提取信息的OCR技术日益普及。然而,现有的OCR方法主要集中在从图像或扫描文档中识别文本元素(以文本为中心的OCR),忽视了从视觉信息密集的图像源(以视觉为中心的OCR)中识别视觉元素,如图表、网页和科学图。在现实中,这些视觉信息密集的图像在互联网上广泛存在,并具有显著的现实世界应用价值,如数据可视化和网页分析。
在这份技术报告中,我们提出了OCRVerse,这是第一种端到端的整体OCR方法,能够实现统一的以文本为中心的OCR和以视觉为中心的OCR。为此,我们构建了全面的数据工程,以涵盖广泛的以文本为中心的文档,如报纸、杂志和书籍,以及以视觉为中心的渲染复合材料,包括图表、网页和科学图。此外,我们建议一种面向OCRVerse的两阶段SFT-RL多域训练方法。SFT直接混合跨域数据来训练和建立初始领域知识,而RL则专注于针对每个域的特征设计个性化的奖励策略。具体而言,由于不同的域需要各种输出格式和预期输出,我们在RL阶段提供了足够的灵活性来为每个域定制灵活的奖励信号,从而提高跨域融合并避免数据冲突。实验结果证明了OCRVerse的有效性,在以文本为中心和以视觉为中心的数据类型之间取得了具有竞争力的结果,甚至可以与大规模开源和闭源模型相媲美。

🛎️文章简介

🔸研究问题:如何统一解决文本密集型(如文档)和视觉密集型(如图表、网页、公式)两类OCR任务,而非依赖割裂的专用模型?
🔸主要贡献:论文提出OCRVerse,首个在端到端视觉语言模型框架下实现文本中心与视觉中心OCR能力统一的一体化OCR方法。

📝重点思路

🔸构建覆盖9类文本场景(报纸、论文、试卷等)和6类视觉场景(图表、网页、分子结构等)的综合性多源数据工程。
🔸提出两阶段训练范式:SFT阶段直接混合全部领域数据,建立跨域共性表征;RL阶段为不同领域定制奖励函数(如公式用CDM、表格用TEDS-S、图表用DINOv2视觉相似度)。
🔸采用轻量级Qwen3-VL-4B架构,在SFT阶段冻结视觉编码器,仅微调语言模型;RL阶段使用Group Relative Policy Optimization(GRPO)优化策略。
🔸针对视觉密集任务,设计多尺度视觉保真奖励(全局缩略图+局部图像块),并引入格式对齐奖励确保生成代码符合目标编程语言规范。
🔸通过熵值过滤(文本域)和质量筛选(视觉域)构建高难度RL训练集,聚焦模型薄弱环节进行精细化优化。

🔎分析总结

🔸OCRVerse在OmniDocBench v1.5上达89.23总体分,超越Gemini-2.5 Pro(88.03)和Qwen2.5-VL-72B(87.02),以4B参数媲美70B级模型。
🔸在视觉中心任务中全面领先开源模型:ChartMimic执行成功率84.8%(超Qwen3-VL-8B 6.5个百分点),Image2Latex-plot渲染成功率达88.7%(超GPT-5 10个百分点)。
🔸公式识别CDM达87.13,显著优于Deepseek-OCR(83.37),验证合成公式数据策略的有效性;但表格TEDS-S(90.35)仍略逊于HunyuanOCR(92.10),表明复杂表格结构建模仍有提升空间。
🔸未显式建模布局导致阅读顺序误差(0.068)略高于dots.ocr(0.053),说明未来需融合区域感知机制以增强空间理解能力。
🔸所有视觉中心任务均采用统一模型输出代码,证明其跨模态语义对齐能力,且在ChemDraw等专业领域达到接近GPT-5的分子识别性能(89.1%执行率)。

💡个人观点

论文突破OCR长期存在的“文本vs视觉”二元割裂范式,将字符级识别与代码级生成纳入同一端到端VLMM框架,并通过SFT-RL双阶段训练实现知识融合与领域精调的平衡。

🧩附录

在这里插入图片描述
在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐