最近国产 AI 扎堆更新。

这次轮到 DeepSeek。

昨天,DeepSeek 悄悄发布了 OCR 模型的升级版 DeepSeek-OCR 2,论文标题叫「Visual Causal Flow」,翻译过来是「视觉因果流」。

代码、模型权重、完整论文,全部开源。

 论文,标题「Visual Causal Flow」。

DeepSeek-OCR 2 论文,标题「Visual Causal Flow」。

先说结论:

这个模型不再像扫描仪一样机械地从左上角读到右下角,而是根据内容语义动态调整阅读顺序。就像人读报纸会先看标题再看正文,遇到表格会按行或列理解一样。

在 OmniDocBench v1.5 基准测试上,整体得分 91.09%,比前代提升 3.73%。

阅读顺序的编辑距离从 0.085 降到 0.057,意味着新模型真的能更好地理解文档结构。


传统的视觉语言模型在处理图像时,会把图片切成一块块的视觉 token,然后按照固定的顺序投喂给模型。

这个顺序是从左上角开始,一行一行扫到右下角,就像打印机一样。

但人类不是这样阅读的。

我们读一份报告,会先看标题,再看摘要,然后跳到感兴趣的章节。遇到表格会按列或按行来理解,遇到公式会先看整体结构再看细节。

这是一种基于语义和逻辑关系的阅读方式,DeepSeek 在论文里把它叫做「因果流」。

下一步看哪里,取决于上一步看到了什么。

传统模型的机械扫描顺序,和人类的因果阅读逻辑,完全是两回事。

这就是 DeepSeek-OCR 2 要解决的核心问题。

传统视觉模型架构( 和 ),查询 token 之间使用非因果注意力,没有阅读顺序的概念。

传统视觉模型架构(DETRBLIP2),查询 token 之间使用非因果注意力,没有阅读顺序的概念。


新模型的核心组件叫 DeepEncoder V2

它有一个关键改动:用一个 5 亿参数的语言模型 Qwen2-0.5B 替换了原来的 CLIP 视觉编码器。

这里引入了一套全新的处理方式。

打个比方。你拿到一份杂乱的文档,会怎么读?

先快速扫一眼,知道大概有哪些内容、在什么位置。

这是「全局感知」。

然后根据内容的逻辑关系,决定先读什么、后读什么。标题、正文、表格、注释,按理解顺序依次处理。

这是「逻辑重排」。

DeepEncoder V2 就是这么干的。

 完整架构:左侧压缩,中间  实现全局感知 + 逻辑重排,右侧解码器生成输出。

DeepSeek-OCR 2 完整架构:左侧压缩,中间 DeepEncoder V2 实现全局感知 + 逻辑重排,右侧解码器生成输出。

第一组 token 负责「全局感知」,它们之间可以互相看到,确保不漏掉任何信息。

第二组 token 负责「逻辑重排」,它们按严格的先后顺序工作。每一步只能基于前面已经处理过的内容来决定下一步该关注什么。

最终送入解码器的是第二组 token。

它们已经按语义逻辑排好了队,而不是原来那种从左上到右下的机械顺序。

DeepSeek 把这叫做「两级级联因果推理」。

先用第一级理解全局,再用第二级重排顺序。


之前说了,在 OmniDocBench v1.5 基准测试上,DeepSeek-OCR 2 整体得分 91.09%,比前代提升 3.73%。

OmniDocBench v1.5 完整评测, 以 1120 个 token 达到 91.09% 准确率,超过需要 6000+ token 的竞品。

OmniDocBench v1.5 完整评测,DeepSeek-OCR 2 以 1120 个 token 达到 91.09% 准确率,超过需要 6000+ token 的竞品。

更有意思的是阅读顺序这个指标。

编辑距离从 0.085 降到 0.057。这个数字代表模型输出的内容顺序和标准顺序之间的差异,越低越好。

文档解析编辑距离对比, 的 0.100 优于  的 0.115。

文档解析编辑距离对比,DeepSeek-OCR 2 的 0.100 优于 Gemini 3 Pro 的 0.115。

新模型不仅识别得更准,还能更好地理解文档的逻辑结构。

在相近的视觉 token 数量下,DeepSeek-OCR 2 的文档解析编辑距离是 0.100,Gemini 3 Pro 是 0.115。

DeepSeek 用的视觉 token 上限是 1120,和 Gemini 3 Pro 持平。

但很多其他 OCR 或视觉模型动辄需要 6000 甚至 7000 个 token。

高压缩率 + 高准确率,DeepSeek-OCR 2 同时做到了。


重复输出是 OCR 的常见问题,同一段内容被识别多次。

视觉因果流的引入有效缓解了这个问题。

在生产环境中,用户上传图片的重复输出率从 6.25% 降到 4.17%,批量 PDF 处理的重复率从 3.69% 降到 2.88%。

生产环境重复输出率对比,用户图片从 6.25% 降到 4.17%,PDF 从 3.69% 降到 2.88%。

生产环境重复输出率对比,用户图片从 6.25% 降到 4.17%,PDF 从 3.69% 降到 2.88%。

DeepSeek-OCR 2 也不是万能的。

在报纸类文档上,识别准确率甚至略低于前代模型。原因是报纸版面密集、训练数据中报纸样本只有 25 万张。

这是端到端模型的老问题,性能高度依赖训练数据的广度与质量。

DeepEncoder V2 验证了 LLM 架构可以做视觉编码器。

同一套编码器,只需要配置不同的模态查询嵌入,就能处理文本、图像、音频。

一个统一的全模态编码器,是 DeepSeek 的下一步目标。


回看 DeepSeek 2026 开年来的动作,mHC 解决训练稳定性,Engram 实现查-算分离,现在 OCR 2 重构视觉理解。

三篇论文看似各自独立,实则指向同一个方向:

「用更聪明的架构设计,而不是更多的算力。」


参考链接

  1. GitHub:https://github.com/deepseek-ai/DeepSeek-OCR-2

  2. HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

  3. 论文 PDF:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf


我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。

关注「AI信息Gap」,让 AI 成为你的外挂。


Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐