DeepSeek-OCR是一种创新的大模型架构,利用视觉模态作为高效文本压缩媒介,解决LLM处理长序列的高计算成本问题。该模型通过自研DeepEncoder将文档图像压缩为极少量视觉tokens,配合DeepSeek-3B-MoE解码器实现端到端文本生成。实验证明,这种视觉压缩方法可将长文档处理成本降低一个数量级,在多项OCR基准上取得领先表现,为LLM长上下文处理提供了新思路和高效解决方案。


随着大型语言模型(LLM)的上下文窗口不断扩大,如何在保持性能的前提下降低长序列计算成本,成为当前最受关注的问题之一。传统的文本序列输入往往需要数千甚至数万 tokens,而 LLM 的计算复杂度随序列长度呈二次方增长,使得处理长文档、复杂报告或多页 PDF 成本极高。在生产系统中,为模型提供高吞吐的长文档能力更是难上加难。

与此同时,人类处理信息的方式揭示了一种有启发性的路径:文本的视觉呈现往往比纯文本结构更加紧凑。一页密集排版的文档可以通过少量视觉特征表示出大量的语言内容,这意味着视觉模态天然是一种高效的文本压缩媒介。如果视觉编码器能够将一整页文档转化为极少量、高语义密度的视觉 tokens,而解码器又能从中恢复出原始文本,那么长上下文的计算瓶颈将迎刃而解。

基于这一考量,我们重新审视视觉-语言模型(VLM)的价值,从“跨模态理解”转向“跨模态压缩”。视觉模态不再只承担图像识别或 VQA 的角色,而是被视为文本信息的另一种编码方式。OCR任务则提供了天然测试场景:它包含视觉输入、文本输出,并且具备严格的可量化评价指标,是研究视觉压缩→语言解压缩的理想载体。

DeepSeek-OCR

正是在这一背景下,DeepSeek 团队提出了 **DeepSeek-OCR:**一个以高效视觉文本压缩为目标的新型体系结构,用于验证“以视觉模态压缩长上下文”这一方向的可行性。它并非传统意义的 OCR 模型,而是一个研究视觉 token 压缩极限、探索 LLM 长上下文计算效率的概念验证系统。

DeepSeek-OCR 的提出旨在回答三个核心问题:

  • 视觉可将文本压缩到什么程度?

    在多大压缩比下,语言模型仍能正确解码视觉编码器的输出?是否可以在10倍甚至20倍压缩下保持可用性能?

  • 高分辨率文档如何高效转化为少量视觉 tokens?

    需要怎样的视觉编码结构,才能同时满足低激活、低显存、高压缩率?

  • 这样的视觉压缩系统是否具备实际生产价值?

    是否能在真实文档场景中超越现有 OCR 标准?能否支撑大规模训练数据生成?

实践证明,这一方向不仅可行,而且潜力巨大。DeepSeek-OCR 在多项基准上取得领先,并展示了用极少量视觉 tokens 表示多页文档的能力。更重要的是,它让我们意识到:视觉模态可以成为未来LLM长上下文处理的重要突破口,能够将文本处理成本降低一个数量级,为“低成本超长上下文”提供新的设计空间。

这一研究的价值远不仅限于OCR本身,而是为VLM的未来提供了一种新的范式:用视觉重构文本,用压缩解决长上下文,用跨模态优化大模型推理成本。

模型架构

当前主流的视觉-语言模型在视觉编码方面呈现出三条发展路径,每一种都在高分辨率处理、视觉 token 数量、显存占用与部署复杂度之间进行了不同的权衡。为了理解 DeepSeek-OCR 的设计选择,我们首先回顾这三类典型视觉编码器及其局限性,再引出 DeepEncoder 在架构上的创新。

  • Vary 为代表的双塔编码策略

    通过多分支视觉编码器(如并行的 SAM)扩展视觉词汇容量,以便在高分辨率图像下获得更强的视觉表达能力。这种方式在参数规模和激活内存方面可控,但其同时需要重复的图像预处理流程,使得训练阶段难以实现编码器流水并行,部署流程也更加复杂,不利于在大规模系统中使用。

  • InternVL2.0 等模型采用的分块式(tile)编码策略

    其核心思想是将整张图像拆分成大量小块,通过并行计算降低在高分辨率场景中的显存压力。这一方法能够支持极高分辨率,但由于编码器自身的输入分辨率较低(通常低于 512×512),大型文档往往被迫切割成大量 patch,最终产生非常多的视觉 tokens,显著拖慢解码器的预填充速度,对长文档任务尤为不利。

  • Qwen2-VL 等模型采用的NaViT动态分辨率编码策略

    直接对完整图像进行基于 patch 的分割与序列化,从而避免分块并行过程。尽管这一方法具备强适应性,但在高分辨率输入下会产生巨量的中间激活,导致 GPU 内存迅速膨胀;同时训练阶段需要极长序列,使得打包与梯度计算代价极高,推理阶段的预填充速度也会明显下降。

在 OCR 这一密集视觉理解任务中,上述架构的瓶颈被进一步放大。OCR 尤其是文档解析,不同于自然图像识别,往往包含大量文字、小结构、表格、公式以及复杂的版面布局。随着端到端模型不断发展,从 Nougat 到 GOT-OCR2.0,再到 Qwen-VL 与 InternVL 系列,OCR 的准确性和通用性虽然迅速提高,但视觉 token 数量依旧居高不下。至今仍没有模型能够清晰回答:一页包含千字级文本的图像,其最少需要多少视觉 tokens 才能被准确解码?这个问题不仅关系到 OCR 体系的设计,也决定了未来 VLM 在处理长文档时的极限效率。

基于这一痛点,DeepSeek-OCR 采用了一个统一的视觉编码器-文本解码器架构,由高效的 DeepEncoder 和 DeepSeek 3B MoE 解码器组成。

整体结构为图像输入 → 视觉 token 生成与压缩 → 基于提示的文本解码。

为文档解析任务提供从像素到文本的端到端路径。

  • 视觉编码器:DeepEncoder 是整个系统的核心,由约 3.8 亿参数构成,包括一个 80M 的 SAM-base 模块与一个 300M 的 CLIP-large 模块串联形成的混合编码器结构。SAM-base 负责捕获文档中的局部结构信息,如文字边界、区域分割、局部线条与形状,而 CLIP-large 则进一步提升语义理解能力,使模型能够在高压缩比下仍保持对文档内容的整体一致性与跨区域语义关联。DeepEncoder 同时承担视觉 token 化与高比率压缩任务,通过串联的局部注意力、全局注意力与下采样模块,将原始图像映射为极少量、高语义密度的视觉 tokens。
  • 文本解码器:采用 DeepSeek 3B MoE 架构,拥有 5.7 亿激活参数。借助 MoE 的稀疏激活机制,这个轻量级解码器能够在保持较低推理成本的同时提供足够强的语言建模能力,用于高精度 OCR 文本生成。图像 tokens 与输入提示共同作为条件输入,驱动解码器生成结构化的文档内容,包括正文、公式、简单图形甚至化学结构表达。

DeepEncoder

在探索视觉上下文压缩能力时,一个能够兼顾高分辨率处理、低激活内存、较少视觉 tokens、适配多种分辨率并保持适中参数量的视觉编码器是必不可少的。然而,现有开源模型难以同时满足这些要求:

  • 高分辨率编码器激活成本过高。
  • 分块策略的结构又会产生大量视觉 tokens。
  • 动态分辨率方案在超大图片下易导致显存溢出。

因此,DeepSeek-OCR 选择自研视觉编码器,并提出 DeepEncoder 作为系统的核心视觉模块,以弥补当前 VLM 编码器在文档场景下的系统性缺陷。

DeepEncoder 的整体架构由视觉感知特征提取与视觉知识特征抽取两部分构成,分别对应局部结构理解与全局语义整合。

  • 前者以 SAM-base(patch size 16)为主体,其窗口注意力机制能够在高分辨率图像中保持良好的局部结构敏感度,并以仅 80M 的参数实现低激活特性,避免在文档级输入上引发显存瓶颈。
  • 后者采用 CLIP-large 作为全局语义编码 backbone,并移除了其原始 patch embedding,使其输入直接来自先前阶段输出的视觉 token,从而实现跨层次的视觉知识建模。

二者串联后形成完整的视觉语义路径,既具备局部结构解析能力,又能够捕获跨区域的布局与文本关系。

在两部分编码器之间,DeepEncoder 借鉴了 Vary 的 token 压缩策略,设计了一个 2 层卷积下采样模块,实现 16 倍 token 压缩。该模块采用核(卷积kernel)大小为 3、步幅为 2、填充为 1 的卷积,通道数由 256 逐步提升至 1024,以保证在压缩 token 数量的同时保留充足的语义容量。

以 1024×1024 输入为例:

  • SAM-base 会首先生成 1024/16 × 1024/16 = 4096(patch token)
  • 经过下采样模块后,token 数量减少至 4096/16 = 256

DeepEncoder 通过这种“先局部、再压缩、后全局”的路径,在高分辨率处理与显存可控之间取得了新的平衡,实现了上下文压缩所需的视觉 token 最小化目标。

分辨率策略:为了评估不同压缩比下的 OCR 性能,并提升模型在实际应用中的灵活性,DeepEncoder 进一步设计了系统化的多分辨率策略,通过动态位置编码插值与多模式联合训练,使单一模型即可覆盖多种视觉 token 配置。DeepEncoder 支持两大类型输入:原生分辨率模式与动态分辨率模式,并在训练阶段为每个模式提供独立的样本分布,以实现统一模型下的多尺度兼容性。

原生分辨率模式包含 Tiny、Small、Base、Large 四个子档,分别对应 512×512(64 tokens)、640×640(100 tokens)、1024×1024(256 tokens)与 1280×1280(400 tokens)。

  • Tiny 与 Small:直接调整图像尺寸,以避免浪费视觉 tokens。
  • Base 与 Large:通过等比例填充保持原始纵横比,使视觉信息不因强制拉伸而丢失。填充后有效视觉 tokens 的数量会小于理论 token 数量,模型在训练中自动识别有效区域并忽略 padding 部分,使 token 使用更加精确。
  • 动态分辨率模式:图像被划分为 n 个 640×640 的局部tile,并额外提供一个全局视图(1024×1024),整体 token 数量为 n × 100 + 256。tile划分策略继承自 InternVL2.0,但由于原生分辨率本身较大,tile数量始终被限制在 2 至 9 的范围内,不会出现严重碎片化。在宽高均低于 640 的情况下,动态模式自动退化为 Base 模式,以保持推理稳定性,主要用于报纸、海报等超高分辨率图像场景。

通过统一的训练策略,DeepEncoder 将原生模式与动态模式进行混合训练,使模型在高度压缩、高分辨率、长文档等复杂条件下均保持稳定表现。整个视觉编码流程形成了一个新的光学压缩路径:以高分辨率输入启动,以紧凑 token 输出终止,为 DeepSeek-OCR 后续的 MoE 解码器提供最低冗余的视觉信息输入。它不仅显著减少视觉 token 数量,也让长文档 OCR 从依赖大模型算力的任务转变为更可控、更高效的视觉语言流程。

MoEDecoder

为了在保持推理高效的前提下获得足够的表达能力,我们的解码器采用了 DeepSeekMoE 架构,具体为 DeepSeek-3B-MoE。在推理阶段,该模型会从 64 个路由专家中动态激活 6 个专家以及 2 个共享专家,整体约有 5.7 亿参数参与前向计算。得益于专家路由机制,3B DeepSeekMoE 在计算开销上接近 500M 级别的小模型,同时保留了 3B 规模模型的强表达能力,非常适合作为面向领域任务(如 OCR)的轻量级语言解码器。

模型训练

两阶段训练:

  • 训练视觉编码器 DeepEncoder,以实现压缩视觉 token 具备高质量的语义承载能力。

    遵循下一个 token 预测框架,对来自 OCR 任务、图表/化学式/几何等 OCR 2.0 数据,以及从 LAION 抽取的 1 亿通用图文对进行训练。批次大小为 1280,训练 2 个 epoch,采用 AdamW 优化器和 cosine annealing 调度器,学习率 5e-5,序列长度为 4096。

  • 训练 DeepSeek-OCR,以实现视觉—文本的端到端建模能力。

    用流水线并行将模型分为四段:SAM + compressor 作为视觉 tokenizer 并冻结参数,CLIP 作为视觉嵌入层继续学习,语言模型部分将 DeepSeek-3B-MoE 的 12 层均分为两段进行训练。我们使用 20 个节点共 160 张 A100-40G GPU,数据并行度为 40,全局批次大小为 640,学习率 3e-5。纯文本数据的训练速度约为 90B tokens/天,多模态数据约为 70B tokens/天。

训练数据覆盖 OCR 1.0、OCR 2.0、通用视觉数据以及纯文本数据,OCR 占比 70%,通用视觉占比 20%,纯文本占比 10%,确保模型具备强大的文本识别能力,同时保留必要的通用视觉能力。

​最后

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。

我整理出这套 AI 大模型突围资料包:

  • ✅AI大模型学习路线图
  • ✅Agent行业报告
  • ✅100集大模型视频教程
  • ✅大模型书籍PDF
  • ✅DeepSeek教程
  • ✅AI产品经理入门资料

完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇
​​
在这里插入图片描述

为什么说现在普通人就业/升职加薪的首选是AI大模型?

人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。

img
智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

在这里插入图片描述

​​
在这里插入图片描述

资料包有什么?

①从入门到精通的全套视频教程⑤⑥

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

② AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述

④各大厂大模型面试题目详解

在这里插入图片描述

⑤ 这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

​​​​在这里插入图片描述
在这里插入图片描述

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

在这里插入图片描述

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐