【阿里最强_VLM】Qwen3-VL解析,非常详细收藏我这一篇就够了
Qwen3-VL系列多模态大模型在架构和训练方面实现多项创新:原生支持256K多模态长上下文,提供2B-235B不同规模的模型选择。核心改进包括增强的交错MRoPE位置编码、DeepStack视觉特征注入机制和优化的视频时间戳对齐。训练采用四阶段渐进式策略,从视觉-语言对齐到超长上下文适应,并构建了高质量多模态数据集。该系列模型在文本理解、多模态长上下文处理和视频推理等任务上展现出优异性能,通过创

Overview

我们推出了 Qwen3-VL 系列:
- 原生支持 256K 多模态交错长上下文,可无缝集成 text、image、video
- 提供 2B / 4B / 32B 的 Dense 模型,以及 30B-A3B / 235B-A22B MoE 模型
- 具备三大核心能力
- 具备超越同阶纯文本基础模型的纯文本理解能力
- 拥有强大的多模态交错长上下文理解能力,原生支持 256K 多模态输入
- 在 MMMU 等 benchmark 上表现出先进的单图、多图、视频任务多模态推理能力
- 架构层面,引入了三大关键创新
- 增强的交错 MRoPE,修复了 Qwen2.5-VL 中 MRoPE 频域不均衡问题,能更好的兼顾长短视频理解
- 引入 DeepStack,从 VisionEncoder 中间层提取 visual tokens,并注入到 LLM 前几层,以强化 visual-text 对齐
- 优化 T-RoPE,采用文本时间戳对齐机制
- 优化层面
- 将 per-sample loss 调整为平方根归一化的 per-token loss
- 从而在训练过程中更好地平衡文本与多模态数据的贡献度
- 训练数据层面,从数据质量、数据多样性、数据组织方式三个层面全面升级
- 更细致精确的 image caption 监督
- 更全面的目标识别和 OCR 语种支持
- 基于空间关系和 3D 位置的标准化定位
- 以及面向代码 / 长文档 / 时序定位视频的新语料库
- 进一步注入 CoT 与高质量多样化 GUI Agent 交互数据,以弥合感知、推理、行动之间的 gap
- 训练流程则依旧包含两个阶段
- Pre-Training 阶段,四个子阶段
- 首先 text-visual 对齐阶段,冻结其他部分,仅打开 visual-text adapter
- 然后是依次在 8K、32K、256K 长度下,逐步扩大上下文窗口的全参数训练
- Post-Training 阶段,三个子阶段
- 对长 CoT 数据的 SFT
- 从更强教师模型进行的知识蒸馏
- 强化学习
Architecture

整体架构
与 Qwen2.5-VL 一致,采用三段式结构:
- LLM:
- 基于 Qwen3 构建
- Visual Encoder:
-
使用 SigLIP 2 作为 vision encoder,并基于官方 checkpoint 初始化,使用动态分辨率继续训练
-
为有效适应动态分辨率,采用 2D-RoPE 并根据输入尺寸插值绝对位置嵌入,与 COMP 一致
这里说明,Qwen3-VL 对动态分辨率的支持,已经由 Qwen2.5-VL 的 NaViT 模式,切换为了 SigLIP + COMP 的模式,具体细节待研究。
-
具体而言,我们使用 SigLIP2-SO-400M 变体,并为 2B / 4B LLM 使用 SigLIP2-Large 300M
- MLP-based Vision-Language Merger
- 使用双层 MLP 将 vision encoder 输出的相邻 tokens 合并为一个,并与 LLM 维度对齐
- 为支持 DeepStack,还部署了额外的专用 Mergers
架构创新
Interleaved MRoPE

如上图所示,在 Qwen2-VL 中引入的 M-RoPE 用于统一 text、image、video 模态的 Position Enbedding,但是其存在一个设计缺陷!!!
如上图右侧所示,它将 RoPE 中的编码索引按顺序划分为三部分 。而根据 RoPE 的位置编码公式:
此时, 编码将分据不同频段,而未享受到完整的频域空间,这将缩短位置编码的实际覆盖范围!!!
因此,Qwen3-VL 中将顺序划分改为了间隔划分,也就是 ,以确保各模态的位置编码能覆盖到预设的全频段!!!实际效果就是很好的改善了模型的长程位置建模。
DeepStack
借鉴 DeepStack 的思路,我们从 ViT 中间层提取 visual tokens,并将其注入到 LLM 的多个 layers 中,以保留从低层级到高层级表示的丰富视觉信息。

具体而言:
-
我们从 vision encoder 的三个 layers 选取特征
-
随后,用特定的 vision–language merger 将这些特征投影为 visual tokens
-
最后,这些 visual tokens 被分别添加至 LLM 的前三层对应的 hidden states 中
推测是对应位置直接相加,具体需要看源码。

Video Timestamp
在 Qwen2.5-VL 中,MRoPE 的 time 维度使用的是绝对(帧)时间。我们发现,这种形式存在两个关键局限性:
-
通过将时间位置 ID 直接绑定到绝对时间,该方法会为长视频生成过大且稀疏的时间位置 ID,从而削弱模型理解长时间上下文的能力。比如说:
-
模型训练时,绝大多数是短视频,可能的总帧数是
-
在推理时,突然遇到 这种级别的帧编号,可能就无法正确预估距离,正确理解视频了
-
该方案下的有效学习需要对不同 fps 进行广泛且均匀分布的采样,这显著增加了训练数据构建的成本
-
在不同原始帧率的视频中,1s 可能对应着完全不同的帧编号,比如:
-
30 fps 的视频,对应第 30 帧
-
5 fps 的视频,对应第 5 帧
-
模型若要学会 1s 这个概念,可能需要在训练阶段见过所有可能的帧率,且进一步抽象出 1s 的不同表示
为了解决这一问题,我们采用了一种基于文本 token 的时间编码策略,此时:
- 每个视频时间片段都前缀一个以格式化文本字符串表示的时间戳,如 ❤️.0 seconds>
- 此外,在训练过程中,同时生成以 s 和 hours:minutes:seconds 格式表示的时间戳,以确保模型学会解析多样化的时间码表示
- 这种方式以适量上下文长度的增加为代价,但使得模型能够更有效且精确地感知时间信息,从而促进时间感知视频任务,如视频定位和密集描述生成

Training
Pre-Training
训练流程

Qwen3-VL 的训练分为四个阶段,旨在从基础对齐到长上下文理解逐步构建能力。如上表所示:
-
Stage-0:视觉语言对齐
-
仅训练 MLP Merger 参数,重点在于对齐 vision encoder 与 LLM 之间的模态鸿沟
-
以 8K 上下文长度进行训练,使用 67B 精选高质量数据集 tokens,包括:image-caption、visual 知识、OCR 等
-
Stage-1:多模态训练
-
全参数端到端训练,训练序列长度约为 8K
-
使用约一万亿大规模多样化 tokens
-
包含大量纯文本数据,以保持 LLM 的强大的语言能力
-
包含丰富的 VL 数据,新增交错图文文档、视觉定位、VQA、STEM 领域、以及少量引入时序理解的视频数据
-
Stage-2:长上下文训练
-
全参数训练端到端训练,训练序列长度增加至 4K
-
使用约一万亿 tokens,通过调整数据混合比例以支持长上下文任务
-
增加纯文本数据比例,以增强长文本理解能力
-
剩余的视觉语言数据则包含显著增量的视频及面向智能体的指令跟随数据
-
Stage-3:超长上下文适应
-
全参数端到端训练,序列长度增加至 256K
-
使用专为超长序列训练准备的 1000亿 tokens,包含文本及视觉语言数据,重点关注长视频和长文档理解

Data
Image Caption and Interleaved Text-Image Data
通过高质量、多样化、语义丰富的多模态数据,构建一个稳健的视觉语言理解基础模型。 数据包含两大核心模态:
-
image-caption 模态
-
获得高质量、描述详尽的图片说明
-
构建流程如下
-
原始数据收集:从网上收集大规模、现代的中英双语图像-文本对
-
描述增强
-
使用专门的 Qwen2.5-VL-32B 模型,根据图片的原始文本,重新生成描述
-
效果:新描述更全面、流畅、细致,能更好地描述物体属性、空间布局和上下文
-
数据去重
-
仅对增强后的文本进行语义去重
-
好处:在去除冗余的同时,保留了视觉上的多样性
-
查漏补缺
-
通过视觉特征聚类,找出数据中稀缺的视觉概念
-
对这些稀缺概念进行针对性的数据增强,确保各类事物都有足够的覆盖
-
最终成果:
-
一个在规模、多样性和描述精细度上取得平衡的高质量图像描述数据集
-
交错图文序列
-
获得来自真实世界、图文交织的文档数据(如网页、书籍)
-
构建流程如下
-
原始数据收集:从近期的中英文网站上收集多样化的多模态文档
-
内容过滤
-
使用一个轻量级的模型对文档进行领域分类
-
系统性地过滤掉低质量或有害内容,如广告、推广内容和点击诱饵
-
书籍级数据精细解析
-
使用 Qwen2.5-VL-7B 模型对书籍等复杂文档进行多模态解析
-
精确地将文本与其中的图表、插图、照片等元素对齐
-
构建超长上下文数据
-
将书籍的连续页面合并,构建序列长度高达 256K token 的超长文档
-
保持原始的自然页面顺序和图文之间的连贯性
-
严格的质量控制
-
删除纯文本或图文关联度低的段落
-
对于超长书籍序列,要求最低页面数和最低图文比例,确保整篇文档都有实质性的图文交互
-
最终成果
-
一个干净、多样、保留版面信息的交错图文数据集,专门优化用于需要深度理解和长距离推理的任务
Knowledge
为了让 MLLM 能真正理解图片、进行基于现实的推理,它必须掌握关于现实世界和虚构概念的大量知识。为此,需要构建一个围绕明确定义实体的大规模预训练数据集。
数据构建包含如下核心要点:
-
数据覆盖范围
-
实体类型:覆盖 10 余个语义类别
-
具体包括
-
生物:动物、植物
-
地点:地标
-
物品:食物、交通工具、电子设备、服装等日常物品
-
解决“长尾分布”问题的采样策略
-
问题:少数知名实体(如“猫”、“埃菲尔铁塔”)数据很多,而大多数实体(如某些稀有鸟类)数据很少
-
解决方案:基于重要性的采样
-
高显著性实体:高频采样,确保模型学得扎实
-
低显著性实体:低频采样,保证覆盖面广,但不让罕见数据拖累训练
-
效果:在数据质量、实用性和多样性之间取得平衡
-
数据质量的精炼流程
-
步骤
-
标准过滤:去除有噪声和图文不匹配的样本
-
描述增强:用 LLM 生成的丰富描述替换原始简陋的标题
-
增强描述的内容
-
不仅指出实体“是什么”
-
还详细描述其视觉属性、周围环境、空间布局以及与其他对象的互动
-
效果:为模型提供了更完整、更接地气的文本描述
通过上述策略,最终为模型提供了知识丰富、有上下文意识、能聚焦细节的训练数据,从而显著提升了 Qwen3-VL 在真实场景中识别、推理和描述视觉概念的能力。
OCR, Document Parsing and Long Document Understanding
-
OCR 数据增强
-
目标:提升模型在真实图像中识别文本的能力,并扩展多语言支持
-
关键方法
-
自动化流程:采用 “由粗到精” 的流水线,结合 OCR 专用模型的伪标签与 Qwen2.5-VL 的自动修正,全程无需人工标注
-
规模:处理了 3 千万内部收集的样本
-
多语言扩展:在原有 10 多种语言基础上,新增 29 种语言,合成了约 3 千万高质量多语言 OCR 样本
-
文档解析
-
目标:教会模型理解各种复杂格式的文档(如 PDF)的布局和结构
-
关键方法
-
数据来源:收集了 300 万份公共 PDF 和 400 万份内部文档
-
解析流程
-
先用内部模型预测阅读顺序和区域边界框(布局分析)
-
再用 Qwen2.5-VL-72B 对特定区域进行精准识别
-
统一输出格式:设计了两种灵活的表示法以适应不同需求
-
QwenVL-HTML:包含细粒度的元素级边界框,信息全面
-
QwenVL-Markdown:只定位图像和表格(表格用 LaTeX 编码),更简洁
-
数据构建:结合大规模合成数据与真实文档的高质量伪标签,兼顾了数据规模的可扩展性和实际应用的鲁棒性
-
长文档理解
-
目标:使模型具备分析和推理长达数十页的复杂文档的能力
-
关键方法
-
构建长上下文序列
-
将单页文档图像与文本合并,构建超长序列(图像在前,对应文本在后)
-
构建长文档问答数据
-
从高质量多页 PDF 中生成 VQA 数据
-
问题被设计为需要跨多页、跨模态(如图表、表格、正文)进行多跳推理才能解答
-
质量控制:确保问题类型多样,且证据来源覆盖各种文档元素,以训练模型稳健的推理能力
Grounding and Counting
Qwen3-VL 支持精准的空间定位与定量推理,让模型能准确识别、解释并定位图像中的特定物体或任意区域。支持如下两种定位模态:
- 边界框:用于框出物体
- 点:用于精确指向
下面是定位与计数数据构建流程:
-
Box-based Grounding
-
数据来源
-
整合公开数据集:如 COCO, Objects365 等,提供坚实基础
-
自动化合成流水线:为覆盖更广泛的场景和物体,开发了自动生成高质量标注的流程
-
自动化合成流程
-
候选提取:用 Qwen2.5-VL 从无标签图片中提出可能感兴趣的物体
-
定位与标注:结合专用检测器和 Qwen2.5-VL,共同确定物体的位置和类别
-
质量过滤:系统性地过滤掉低质量标注
-
成果:一个大规模、高多样性的框定位数据集
-
Point-based Grounding
-
数据来源
-
公开点标注数据(如来自 PixMo)
-
从公开数据转换:将已有的物体检测数据转化为点标注
-
高精度合成数据:专门生成用于定位图像细微之处的点标注
-
成果:一个综合性的点定位数据集,确保模型能进行精细定位
-
Counting
-
基础:在定位数据的基础上构建
-
任务形式:包含三种类型,形成一个全面的计数数据集
-
直接计数:直接回答图像中有多少个某物体
-
基于框的计数:通过数框来计数
-
基于点的计数:通过数点来计数
-
目的:使模型具备对视觉实体进行定量推理的能力
与 Qwen2.5-VL 不同,Qwen3-VL 放弃了像素坐标,采用范围在 [0, 1000] 的归一化坐标系。该设计:
- 提升了针对不同输入图像分辨率与宽高比变化的鲁棒性
- 同时简化了后处理流程,并增强了预测坐标在下游应用中的可用性
Spatial Understanding and 3D Recognition
为了让模型能像我们一样理解周围环境,并能进行规划和推理,Qwen3-VL 专门训练了两大高级能力:Spatial Understanding 和 3D Grounding。为支撑这些能力,我们创建了两个专注于空间理解与三维定位的综合数据集:
-
Spatial Understanding
-
目标:让模型不仅能找到物体,还能理解物体之间的关系、用途和可能的互动方式
-
数据内容
-
关系标注:描述物体间的相对位置(例如:“笔记本电脑左边的杯子”)
-
功能属性:标注物体的潜在用途(例如:“可抓取”、“可按压”、“可坐”)
-
规划问题:提出需要多步推理的行动查询(例如:“我应该先移开什么才能拿到显示器后面的书?”)
-
关键特点
-
使用相对位置(如“左边”)而非绝对坐标,更符合人类思维方式,增强推理的稳健性
-
使模型能回答“如何”和“可以做什么”的问题,为智能体(如机器人)与环境交互打下基础
-
3D Grounding
-
目标:让模型能从一张普通的 2D 图片中,估算出物体在真实 3D 空间中的位置
-
数据构建
-
数据格式:组织成“视觉问答”形式
-
每个样本包含
-
一张 2D 图片
-
一段文字描述(指代某个物体)
-
对应的 3D 边界框(以结构化 JSON 格式给出),精确描述了物体在 3D 空间中的位置、大小和朝向
-
技术处理
-
坐标系统一:将来自不同来源的数据,统一到同一个虚拟相机坐标系下,方便模型学习
-
描述增强:为 3D 物体生成丰富、细致的文本描述,不仅说明它“是什么”,还描述其属性、空间位置和与周围环境的互动,从而提供更精确的定位线索
Code
为了让模型不仅能看懂代码,还能根据视觉信息(如图片、设计稿)来生成代码,Qwen3-VL 从两个方面构建了其代码能力:
-
纯文本编码
-
目标:建立扎实的编程基础
-
方法:直接复用 Qwen3 和 Qwen3-Coder 系列的庞大代码库
-
内容:覆盖广泛的编程语言和领域(如软件开发、算法、数学推理)
-
作用:让模型熟练掌握代码语法、算法逻辑和程序生成
-
多模态编码
-
目标:教会模型结合视觉输入生成代码,成为连接视觉与逻辑的桥梁
-
方法:整合开源和内部合成的数据
-
关键任务类型
-
UI 转代码:将界面截图转换为 HTML/CSS 代码
-
图像转 SVG:根据图片生成可编辑的矢量图形代码
-
视觉编程:解决基于图示的编程问题
-
图文问答:回答带有示意图的编程问题(如技术论坛帖子)
-
图表转码:将流程图、图表、公式图转换为对应的代码或标记(如 LaTeX)
Video
Qwen3-VL 能够稳健地建模跨帧时序动态、精细感知空间关系,并对超长视频序列进行连贯总结,这得益于数据处理流程的两大关键创新:
-
Temporal-Aware Video Understanding
-
让模型理解视频中的时间流和时空关系
-
密集描述合成
-
对于长视频,采用从短到长的策略,生成带有时间戳的、连贯的故事级描述
-
同时生成细粒度标注,既能概括事件,又能捕捉片段细节
-
时空视频定位
-
构建大规模数据,在物体、动作、人物级别进行标注
-
增强模型对何时、何地、发生了什么的细粒度理解能力
-
Video Data Balancing and Sampling
-
确保训练数据的多样性和训练过程的高效性
-
来源平衡
-
汇集来自教学、影视、第一视角等多种来源的视频
-
通过系统化筛选(基于标题、时长、类别等元数据)来保证数据集的平衡与多样
-
长度自适应采样
-
根据不同的训练阶段(序列长度限制),动态调整采样参数(如帧率和最大帧数)
-
优势:避免因采样不当(如帧太稀疏或分辨率太低)造成的信息丢失,在有限的资源内保留最多的视觉信息,优化训练效率
Science, Technology, Engineering, and Mathematics (STEM)
多模态推理是 Qwen3-VL 的核心之一,而 STEM 推理构成其最基础的部分。我们的理念遵循分而治之策略:
- 先独立培养:分别训练强大的细粒度视觉感知和鲁棒的语言推理能力
- 再协同整合:将两者融合,实现真正的多模态推理
对应的数据构建流程如下:
-
Visual Perception Data
-
目标:让模型具备细粒度理解图表、图形的能力
-
方法:通过程序化渲染,自动生成海量几何图表
-
数据内容
-
100 万个点定位样本(如交点、角点)
-
200 万个视觉问答对,针对图表细节提问
-
600 万个带丰富描述的图表标题
-
质量保障:采用生成 + 验证的两阶段流程,确保描述的准确性
-
Multi-modal Reasoning Data
-
目标:训练模型结合视觉和语言信息进行复杂推理
-
核心数据:超过 6000 万条 K-12 及大学阶段的习题
-
数据处理
-
严格清洗:剔除低质量题目
-
标准化:翻译(中英互译)并统一答案格式
-
高阶推理数据:专门合成了超过 1200 万条带图像的多模态推理样本,并配有详细的思维链推理步骤
-
质量保障:对推理轨迹进行严格验证,并只保留有挑战性的难题
-
Linguistic Reasoning Data
-
来源:直接复用 Qwen3 的纯文本推理数据
-
核心理由:
-
多模态推理能力根植于强大的语言推理能力
-
一个不会逻辑思考的“大脑”,即使有再好的“眼睛”也无法进行有效推理
Agent
-
GUI 交互能力
-
目标:使模型能自主操作图形界面(桌面、移动端、网页)
-
界面感知训练
-
通过元数据、解析工具与人工标注构建任务
-
包含元素描述、密集描述、密集定位,提升对各类UI的识别精度
-
智能体行为训练
-
采用自演进轨迹框架生成多步骤任务轨迹,并结合人工审核
-
引入思维链增强,强化模型在交互中的规划、决策与自我纠正能力
-
多模态函数调用
-
目标:实现基于视觉上下文的自动化函数调用
-
合成流程
-
根据图像生成用户查询与对应函数定义
-
采样模型的函数调用及其推理过程,合成函数响应
-
循环执行直至问题解决,期间过滤格式错误的轨迹
-
优势
-
无需实际实现函数即可构建大规模多模态调用轨迹
-
支持复杂任务的多步骤推理与工具调用
-
搜索能力
-
目标:通过搜索整合长尾知识,提升回答准确性
-
实现方式
-
收集使用图像搜索与文本搜索工具的多模态检索轨迹
-
训练模型对不熟悉实体主动发起搜索,聚合网络信息
-
价值
-
突破模型固有知识限制,动态增强对现实场景中稀缺实体的理解
Post-Training
训练流程
后训练为一个三阶段过程,旨在提升模型的指令遵循能力,增强其推理能力,并使其与人类偏好对齐:
-
SFT
-
赋予指令跟随能力并激活潜在推理技能
-
细分为两个步骤
-
先在 32k 上下文长度进行初始训练,随后扩展到 256k 上下文窗口,专注于长文档和长视频数据
-
为满足不同需求,将训练数据划分为标准格式和 CoT 格式(显式建模推理过程)
-
Strong-to-Weak Distillation
-
将强大的教师模型的推理能力蒸馏至规模较小的学生模型
-
通过纯文本数据执行 LLM 蒸馏,但同时显著提升了纯文本和多模态任务上的推理能力
-
Reinforcement Learning
-
利用 RL 进一步优化模型性能与对齐效果,又分为 Reasoning RL 与 General RL
-
在涵盖文本与多模态领域的综合集合上实施大规模强化学习,包括但不限于数学、OCR、接地识别与指令跟随,以提升更细粒度的能力
Cold Start Data
Cold Start Data 指的是在一个训练阶段开始时,所使用的第一波、最基础、高质量的种子数据集,决定了模型能力发展的初始方向和基础质量。
SFT Data
我们的主要目标是赋予模型解决广泛现实世界场景的能力。在 Qwen2.5-VL 已精通 8 大核心领域、30 多个子类别的基础上,Qwen3-VL 通过整合社区反馈、学术研究和实际应用洞察,战略性扩展了其能力边界:
- 具身智能的空间推理
- 细粒度视觉理解的图像锚定推理
- 视频中稳健目标跟踪的时空定位
- 以及数百页长上下文技术文档的理解
我们系统化的构建了 SFT 数据集:
- 规模:约 120 万个高质量样本
- 模态构成
- 1/3 纯文本:保持和增强语言能力
- 2/3 多模态(图像-文本、视频-文本):培养理解复杂现实世界的能力
- 关键特性
- 多语言支持:超越中英文,包含多样化语言样本,提升全球适用性
- 真实对话模拟:包含单轮和多轮对话,覆盖从单图到多图的视觉场景
- 支持智能体行为:包含交错图文样本,用于训练工具增强的图像搜索、视觉推理等高级能力
鉴于 Qwen3-VL 原生支持 256K token 的上下文长度,我们采用分阶段训练策略以优化计算效率:
- 第一阶段:使用 32K 的序列长度进行一轮训练,快速建立基础
- 第二阶段:使用完整的 256K 长度,采用课程学习,混合长文档(数百页技术文档、整本教科书)、长视频(最长 2 小时)和普通长度数据,逐步训练模型掌握处理超长内容的能力
为确保数据质量,建立了一个两阶段过滤框架:
-
Query Filtering
-
剔除模糊查询:利用 Qwen2.5-VL 识别并丢弃无法验证或指令模糊的查询
-
净化网络内容:系统性删除无实质内容的网络查询
-
评估复杂度:只保留具有适当挑战性和相关性的样本
-
Response Filtering
-
规则过滤:使用预定义规则剔除重复、不完整、格式错误、离题或有害的响应
-
模型过滤:使用奖励模型对问答对进行多维度精细评估
-
评分标准:正确性、完整性、清晰度、帮助性
-
视觉专项:重点评估对视觉信息的准确解读和利用
-
捕捉细微问题:能发现不恰当的语言混合、风格突变等规则难以捕捉的缺陷
只有通过这套严格过滤的、高质量、可靠、符合伦理的数据,才会被用于最终的监督微调,确保模型产出内容的高标准。
Long-CoT Cold Start Data
核心理念是:用一个精心策划的高质量、高难度数据集作为“种子”,专门用于训练模型的深度思考和推理能力:
-
数据集的构成与战略重点
-
数据平衡:视觉语言数据与纯文本数据的比例约为 1:1,确保模型视觉与语言推理能力均衡发展
-
多模态数据侧重点
-
覆盖基础能力:包含 VQA、OCR、2D/3D 定位、视频分析等
-
战略倾斜:
-
特别丰富和加强了 STEM(科学、技术、工程、数学)和智能体工作流相关的任务
-
以专门提升需要多步推理的复杂问题解决能力
-
纯文本数据:与强大的文本模型 Qwen3 保持一致,包含数学、代码、逻辑等领域的难题
-
确保高质量与高难度的三重过滤流程
-
Difficulty Curation
-
标准:专门挑选那些基线模型答错率高或需要生成长篇、详细回答的问题
-
目的:确保数据集由真正具有挑战性的问题构成,避免简单问题稀释训练效果
-
Multimodal Necessity Filtering:核心步骤
-
方法:对于视觉数学题,用一个强大的纯文本模型(Qwen3-30B-nothink)去解答。如果这个模型不看图就能答对,则该样本被丢弃
-
目的:确保留下的每一个多模态问题都必须依赖视觉信息才能解决,剔除“伪多模态”问题,强制模型学习图文结合推理
-
Response Quality Control
-
剔除错误答案:对于有多个候选答案的问题,先过滤掉最终答案错误的
-
剔除低质推理:再过滤掉含有过度重复、语言混用、缺乏推理步骤、明显猜测等不良模式的回答
-
目的:确保模型学习的是正确且逻辑严谨的推理路径
-
最终成果:一个专为引导先进多模态推理而设计的、高质量、高难度、高纯度的“思维”训练数据集
Strong-to-Weak Distillation
我们采用 Qwen3 中所述的强到弱蒸馏流程,以进一步提升轻量级模型的性能。该蒸馏过程包含两个主要阶段:
- Off-policy Distillation:
- 在第一阶段,教师模型生成的输出被结合以提供响应蒸馏
- 这有助于轻量级学生模型获取基本推理能力,为后续在策略训练奠定坚实基础
- On-policy Distillation:
- 在第二阶段,学生模型基于提供的提示生成响应
- 这些在线策略序列随后被用于微调学生模型。我们通过最小化 KL 散度来对齐学生和教师预测的 logits
Reinforcement Learning
Reasoning Reinforcement Learning
在多样化的文本和多模态任务上训练模型,包括数学、编程、逻辑推理、视觉定位和视觉谜题。这些任务的关键特征是答案可以通过规则或代码执行器进行客观、确定的验证。
-
Data Preparation:确保高质量的训练样本
-
高质量查询来源
-
从开源和专有来源整理数据,并经过严格的预处理和人工标注,确保 RL 查询本身的高质量
-
构建训练集
-
初步筛选:使用一个强大的初始模型为每个查询生成多个回答,丢弃所有回答都错误的查询
-
潜力评估:通过初步RL实验,识别并移除那些模型难以从中学习或提升潜力有限的数据源
-
最终数据集:得到约 3 万条覆盖多种任务的优质 RL 查询
-
训练动态
-
在训练每个模型时,会再次对查询进行采样,并过滤掉通过率超过 90% 的“简单题” ,专注于攻克难题
-
将不同任务的数据混合成批次,并保持一个通过实验确定的最佳比例,确保模型全面、均衡地发展各项能力
-
Reward System:提供精确反馈以引导模型
-
统一的奖励框架
-
提供一个共享的基础设施,但为不同任务实现其核心的奖励计算逻辑
-
使用任务特定的提示来引导输出格式,因此不额外奖励格式本身,专注于答案的实质正确性
-
对语码转换(如提问用中文,回答用英文)施加惩罚,确保响应的一致性
-
采用的 RL 算法
-
使用SAPO(一种平滑自适应的策略梯度方法)
-
该算法被证明能在不同模型大小和架构上,针对多样化的文本和多模态任务带来一致的性能改进
General Reinforcement Learning
此阶段旨在让模型变得更“好用”和“聪明”,超越仅仅回答正确,而是在开放性任务中也能符合人类偏好,并纠正一些顽固错误。为此,我们采用多任务 RL 范式,其奖励函数基于 SFT 阶段的综合任务集构建,包括 VQA、图像描述、OCR、文档解析、接地和时钟识别。
该奖励机制的结构设计旨在优化模型性能的两个核心维度:
-
指令遵循
-
目标:确保模型精准遵守用户指令
-
评估内容:处理复杂约束的能力,包括内容、格式、输出长度、生成 JSON 等结构化数据
-
偏好对齐
-
目标:针对开放式或主观问题,优化模型的回答,使其更有帮助、事实准确、风格得体
-
最终效果:带来更自然、更吸引人的用户体验
此外,该阶段还充当校正机制:
-
修正固有错误
-
问题:模型在SFT后形成了一些强烈但错误的知识先验(例如,数数总是出错)
-
解决方案:刻意设计能触发这些特定错误的任务(如反直觉的计数、复杂的钟表认读),通过 RL 训练用正确答案覆盖错误认知
-
抑制不良行为
-
问题:如不当语言混合、过度重复、格式错误等行为虽然严重,但出现频率低,用通用RL校正效率低下
-
解决方案:专门构建一个 “问题提示”数据集,集中触发这些不良行为,从而进行针对性的高频度惩罚,高效地将其抑制
最后,通过结合两种奖励方式的优势,提供更全面的反馈:
-
基于规则的奖励
-
适用场景:对于有明确答案的任务(如格式、指令遵循)
-
优势:提供明确、精准的反馈,有效防止模型钻空子
-
基于模型的奖励
-
适用场景:用于评估开放式、主观性或复杂任务
-
实现方式:使用强大的模型(如 Qwen2.5-VL-72B 或 Qwen3)作为裁判,从多个维度将模型回答与参考答案进行比较打分
-
优势:灵活性高,能理解不同的表述方式,最大限度地减少对有效但表述非标准答案的误判
Thinking with Images
为赋予模型类似智能体的能力,使其能够通过思考 → 行动 → 分析反馈 → 回答的循环,主动利用工具来理解和解决复杂的视觉问题,我们使用两阶段训练范式:
-
第一阶段:在小模型上验证与原型开发
-
冷启动数据构建
-
合成一个约 10k 样本的小型数据集
-
主要为简单的两轮视觉问答(如属性检测),用于模拟“思考-行动”的基本交互模式
-
模型训练
-
在 Qwen2.5-VL-32B 模型上进行监督微调,教会其模仿视觉代理的行为链 思考 → 行动 → 分析反馈 → 作答
-
随后应用多轮次、工具整合的强化学习,以进一步增强其推理能力
-
第二阶段:将成功经验迁移至 Qwen3-VL 全系列
-
数据蒸馏与扩展
-
使用第一阶段训练成熟的 Qwen2.5-VL-32B 视觉代理,生成一个规模更大、多样性更强的数据集
-
该数据集包含约 120k 轮多轮智能体交互,覆盖更广泛的视觉任务
-
最终训练
-
使用混合数据(新蒸馏的数据 + 第一阶段合成的数据),对 Qwen3-VL 模型进行相同的冷启动 SFT 和工具集成 RL 流程
多轮次、工具集成的强化学习过程在两个阶段中几乎完全相同,仅在底层数据上存在差异。在强化学习期间,为防止模型投机取巧并鼓励有效的行为,我们采用三种互补的奖励信号来促进稳健的、工具介导的推理:
-
答案准确性奖励
-
评估者:Qwen3-32B
-
目标:确保最终答案的正确性。这是最终目标的直接体现
-
多轮推理奖励
-
评估者:Qwen2.5-VL-72B
-
目标:评估推理过程的连贯性与逻辑性。确保模型正确理解工具返回的反馈,并通过合理的步骤推导出答案
-
工具调用奖励
-
机制:将模型的实际工具调用次数,与由 Qwen2.5-VL-72B 根据任务复杂度离线估算的“专家目标次数”进行比较
-
目标:鼓励进行足够多次的探索,避免模型为“骗取”前两项奖励而退化到无论问题多复杂都只调用一次工具的作弊行为
-
作用:促进符合任务复杂度的自适应工具探索
Infrastructure
-
训练平台
-
平台:阿里巴巴云计算服务平台 PAI-Lingjun AI Computing Service
-
定位:为 AI、高性能计算等计算密集型场景提供必需的高性能计算能力
-
预训练并行策略
-
基础框架:基于 Megatron-LM 框架构建混合并行策略
-
并行方法整合
-
Tensor Parallelism (TP) :张量并行,对模型层内的矩阵运算进行切分
-
Pipeline Parallelism (PP) :流水线并行,将模型不同层组分配到不同设备
-
Context Parallelism (CP) :上下文并行,处理长序列的上下文切分
-
Expert Parallelism (EP) :专家并行,针对MoE模型中的专家进行分布
-
ZeRO-1 Data Parallelism (DP) :数据并行,对优化器状态进行分区以减少内存
-
策略优势
-
实现模型规模、计算负载、通信开销的细粒度平衡
-
在高达 10,000 个 GPU 的规模下,仍能保持高硬件利用率、高吞吐量和低通信延迟
-
本地部署与推理
-
部署后端:基于 vLLM 或 SGLang
-
vLLM 特点
-
利用 PagedAttention 内核
-
实现内存高效管理和高吞吐量推理
-
SGLang 特点
-
擅长结构化生成和处理复杂提示
-
整体效果
-
共同为模型提供稳定、高效、灵活的推理能力
-
支撑高效的本地部署与性能评估
最后
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。
我整理出这套 AI 大模型突围资料包:
- ✅AI大模型学习路线图
- ✅Agent行业报告
- ✅100集大模型视频教程
- ✅大模型书籍PDF
- ✅DeepSeek教程
- ✅AI产品经理入门资料
完整的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

为什么说现在普通人就业/升职加薪的首选是AI大模型?
人工智能技术的爆发式增长,正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议,到全国两会关于AI产业发展的政策聚焦,再到招聘会上排起的长队,AI的热度已从技术领域渗透到就业市场的每一个角落。

智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。
AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。


资料包有什么?
①从入门到精通的全套视频教程⑤⑥
包含提示词工程、RAG、Agent等技术点
② AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线

③学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤ 这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频教程由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!


如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓**

更多推荐


所有评论(0)