DeepSeek-OCR V2创新性地用小型LLM替换传统CLIP组件,实现了从物理压缩到逻辑感知的转变。新架构引入"视觉因果流"概念,使模型能按语义逻辑而非固定空间顺序处理图像信息。这一改进显著提高了Token效率、读序准确性,解决了"复读机"问题,为LLM理解视觉世界开辟了新路径,暗示了未来统一全模态编码器的可能性。


在之前的文章中,我们介绍过 DeepSeek-OCR 这个工作(参考[DeepSeek-OCR:多模态大模型的起手式?]。一个重要的启发是:它验证了图片是文本的高效压缩格式,用几百个 token 就能压进上千字的文本。

最近,官方又发布了第二版,我们主要看看进行了哪些改进。

这里是公众号「零一瓦舍」,博主 tomsheep 是一个践行终身学习的硬核技术人。拥有丰富的行业经验和高效的学习方法论,也经常分享一些致力于让新手也能看懂的「保姆式」知识解读。如果你想一同学习,欢迎关注我。任何互动都非常欢迎,也鼓励「批判性」转发~

一、背景与动机:V1 有什么问题?

从 DeepSeek-OCR V1 到 V2,最关键的叙事转变是从 物理压缩(Compression) 转向了 逻辑感知(Reasoning/Flow)

而这个转变最主要的动机在于:V1 的编码器,沿用了传统的 ViT 那套架构,具体来说,是 SAM + Conv + CLIP 的组合,如下图中间虚线框起来的那部分:

为了让照顾对 CV 领域不太熟悉的读者,我们稍微介绍一下这几个组件的功能:

  • SAM:SAM 是 Meta 发布的高性能分割模型,在 DeepSeek-OCR 里,主要利用它的 Image Encoder 部分,扮演「感知者」的角色。因为它擅长处理高分辨率输入
  • 它使用一种叫 窗口注意力 的技术,就像你在看报纸,你不会一眼看完整个版面,而是把视线局限在一个个小方格(窗口)里,只关注局部的纹理、笔画和边缘。
  • 它能极其清晰地捕捉到文字的形状、边界和布局细节,而且因为是只看局部,显存占用很低。
  • Conv:用一个卷积层对特征进行压缩。
  • SAM 虽然看清了细节,但吐出的特征点(Token)太多了。如果直接扔给大模型,计算量太大。
  • 这一步就像是一个「打包压缩」的过程。它通过两层卷积网络,把 SAM 输出的特征图进行下采样。这不仅减少了数量,还把相邻的信息融合在了一起。
  • CLIP:把视觉图像和文本语义对齐。
  • 前面的 SAM 只知道较为原始的视觉特征,比如「这里有条黑线」、「那里是个圆圈」,但不懂那是字母 A。CLIP 的强大之处在于,它见过海量的图文对,它懂语义
  • 这一步使用的是全局注意力。因为经过中间的压缩,数据量已经很小了,CLIP 可以毫不费力地把这些特征通读一遍,理解它们之间的全局关系(比如标题和正文的关系),并把这些视觉信号翻译成 LLM(也就是后面的解码器)能听懂的语言。

这个架构看上去分工明确,很合理,它有什么问题呢?

主要在于,传统的做法,CLIP 这步输出通常是对应空间位置的特征序列(Patch Tokens),也就是说,当把这些特征喂给 LLM 时,通常是按照固定的空间顺序(光栅扫描) 拉直的,通俗地说就是从左上角一行一行死板地扫到右下角。但是,对于排版复杂一点的文档(比如表格、多栏文本),这种「从左上角到右下角」的物理顺序,往往打乱了原本的语义顺序。这让后面的 LLM 解码器理解起来非常费劲。

我们人类是怎么看这种复杂排版的文章的呢?举个例子,一篇双栏的学术论文,你会先看大标题,然后看左栏的第一段,读完左栏再跳到右栏。你的视线是跳跃的,但这种跳跃是符合语义逻辑的。

所以,V2 的作者提出:能不能让视觉编码器像人眼一样,不按死板的坐标顺序,而是按照内容的逻辑顺序来输出视觉特征?

他们把这种能力称为 视觉因果流(Visual Causal Flow)

二、核心改动:把 Encoder 换成 LLM

上面是 V2 的架构图,和 V1 相同的部分在于:

  • 依然保留了 SAM + Conv 做前端感知(也就是编码器的前半部分)
  • 解码器部分仍然是一个 LLM(DeepSeek-3B)

主要的变动在于编码器的后端部分,把之前的 CLIP 换成了一个小巧的 LLM(Qwen2-0.5B)。

也就是说,作者把这个编码器设计成了一个混合体,处理两种 Token:

  • 视觉 Tokens: 代表图片原本的信息。
  • 因果流查询 Tokens: 这是一组可学习的参数,它们负责「提取」并「排序」视觉信息。

为了让它们协同工作,作者设计了一个巧妙的 注意力掩码(Attention Mask)。这在 Transformer 的学习中非常重要,请看下面的矩阵定义:

我们可以把它拆解开:

  • 左上角 (Visual to Visual): 所有的视觉 Tokens 之间可以互相看见(双向注意力)。就像看一张图时,你的余光能看到全局。
  • 左下角 (Query to Visual): 所有的 Query Tokens 都能看见所有的 Visual Tokens。这保证了查询时能利用全图信息。
  • 右下角 (Query to Query): 关键在这里,Query Tokens 之间是因果掩码,也就是第 个 Query 只能看见它之前的 Query,不能看见后面的。这和 LLM 生成文字的方式是一样的。

三、为什么要用 LLM 做视觉编码器呢?

这个设计相当于引入了两个级联的因果推理机制:

  1. 第一级(Encoder 内部): 负责「排版推理」。它不生成文字,只负责把视觉信息按阅读逻辑排好队。每一个 Query 在生成时,不仅看着原图(Visual Tokens),还看着前面的 Query。这迫使模型学习「根据上文逻辑,下一眼该看图片的哪里」。
  2. 第二级(Decoder LLM): 负责「内容推理」。把排好队的特征翻译成文字。

这种设计让解码器 LLM(依然是那个 DeepSeek3B-MoE)的工作轻松了太多。这就像模型在输出视觉 token 之前,已经在内部做了一次 「隐式的思维链」,把乱序的空间像素,梳理成了有序的语义流。以前的模型是「空间坐标」决定顺序,DeepSeek-OCR 2 是「语义逻辑」决定顺序。

四、训练策略

具体的训练中,作者用了三阶段训练法:

  • 阶段一:预训练编码器:只训练 Encoder 部分(上面架构图中的红框 DeepEncoder V2 部分)。目的是让它学会怎么看图,怎么排序。
  • 阶段二:查询增强:冻结最前端的 Vision Tokenizer(SAM+Conv),把 Encoder 后半部分(就是换成了 LLM 的那部分)和后面的 Decoder LLM 连起来一起训练。这是为了让 Encoder 的 Query 更好地适应 Decoder。
  • 阶段三:LLM 继续训练:冻结整个 Encoder,只训练后面的 Decoder LLM。让 LLM 适应新的视觉特征,同时提高训练速度(因为 Encoder 不用算梯度了,跑得快)。

五、工程视角的收益

回到工程落地层面,V2 带来了哪些实实在在的好处?

  1. Token 预算更「抠门」了: V1 的 Gundam 模式用了 1156 个 token。V2 上限控制在 1120 个(为了对齐 Gemini-3 Pro 的视觉预算)。在 token 数减少的情况下,性能反升,说明「逻辑重排」比「堆分辨率」更管用。
  2. 读序错误大幅下降: OmniDocBench 上的 R-order 编辑距离从 0.085 降到 0.057。这意味着解析出来的 Markdown,段落错乱的情况会少很多。
  3. 解决了「复读机」问题: 生产环境的重复率(Repetition Rate)显著下降。V1 经常因为读序混乱,导致 LLM 在解码时迷失上下文,开始死循环复读。V2 提供了清晰的逻辑流,LLM 就不容易迷路了。

总结

  1. 归纳偏置: 传统的「光栅扫描」是强加给模型的限制,不符合人类直觉。DeepSeek-OCR 2 试图打破这一点。
  2. LLM as Encoder: 作者用一个小的 LLM(Qwen2-0.5B)改造成了视觉编码器。这暗示了未来统一的全模态编码器的可能性——也许同一个架构既能编码图像,也能编码音频和文本。
  3. Token 效率: 在保证效果的前提下,Token 数量越少,推理成本越低。这篇文章证明了通过更好的「排序逻辑」,我们可以用更少的 Token 表达更丰富的信息。

总而言之,我还是之前的观点,DeepSeek-OCR 这个系列的工作,不在于提供一个好用的 OCR 工具(目前未必好用),DeepSeek 实际上是在探索 如何用 LLM 的架构去理解视觉。这一点未来仍然充满想象空间。


​最后

我在一线科技企业深耕十二载,见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​
在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。

img
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

在这里插入图片描述

​​
在这里插入图片描述

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​在这里插入图片描述
在这里插入图片描述

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐