今天是 2025 年 12 月 22 日,周一。眼瞅着双旦将至,快过年了,咱们解读论文的节奏也得提提速!

想象一下,有一位博览群书、才华横溢的思想家,但他的一生都只在纯文字的世界里度过,从未见过真实世界的色彩与形态。这就像是传统的大语言模型(LLM),它们在文本理解和生成上能力超群,却是一个“失明”的天才。

现在,让我们给这位思想家安上一双锐利的眼睛,让他不仅能阅读万卷书,还能看见万物,理解图像中的信息。这就是 Qwen-VL 带来的革命性一步:它让一个强大的语言大脑,第一次拥有了感知和理解视觉世界的能力。

本文旨在为您清晰地揭示 Qwen-VL 的内在构造。读完这篇解析,您将深入了解构成 Qwen-VL 的三个核心“积木”,以及它是如何通过三个阶段的训练,统一使用“分类损失”这一数学利器,打开了多模态智能的大门。


1. 认识“三剑客”:Qwen-VL 的核心组件剖析

Qwen-VL 的强大能力,源于一个由三位“专家”紧密协作的团队。每一位专家都身怀绝技,共同完成“看图、理解、思考、回答”的复杂任务。

为了让您快速认识它们,我们整理了下表:

角色 / 类比 技术名称 核心功能 参数规模
[大脑] 大语言模型 (LLM) 负责文本理解、对话生成、逻辑推理 77亿 (7.7B)
[眼睛] 视觉编码器 (ViT) 将图像拆分为小块并提取视觉特征 19亿 (1.9B)
[翻译官] 视觉-语言适配器 (VL Adapter) 压缩视觉特征,并将其“翻译”成大脑能理解的语言 0.8亿 (0.08B)

总计参数规模:约 96亿 (9.6B)

下面,我们来逐一详解这三位专家。

1.1 [大脑] 大语言模型 (LLM)

LLM 是 Qwen-VL 的基石与核心,它基于强大的 Qwen-7B 模型构建。它的职责是处理所有与语言相关的任务,例如理解用户提出的文本问题、进行复杂的逻辑推理以及生成流畅、自然的文本回答。模型的所有“智慧”与“思考能力”都来源于这个强大的大脑。

1.2 [眼睛] 视觉编码器 (ViT)

视觉编码器(ViT)扮演着“眼睛”的角色,负责处理所有输入的图像信息。它基于 Openclip ViT-bigG 架构,将整张图片切割成一个个小方块(patches),并将这些视觉信息(如颜色、纹理、形状)转换成计算机可以处理的数字特征。

1.3 [翻译官] 视觉-语言适配器 (VL Adapter)

这是连接“眼睛”和“大脑”的关键桥梁。ViT 提取的视觉特征是一种“图像语言”,而 LLM 只懂“文本语言”。VL Adapter 负责弥合两者之间的鸿沟。它通过 **单层交叉注意力机制 (Single-layer Cross-attention)**,将 ViT 生成的长序列高效压缩成一个固定长度(256)的短序列,同时融入 2D 绝对位置编码,以支持精细的物体定位任务。


2. 团队协作:揭示 Qwen-VL 的“看图说话”流程

让我们以一个简单的用户请求为例,看看 Qwen-VL 内部的工作流。假设用户向 Qwen-VL 展示一张图片,并提问:“图里有什么?”

  1. **图像输入 (Image Input)**:视觉编码器 (ViT) 首先“看到”这张图片,并转化为视觉特征。

  2. **特征压缩与翻译 (Feature Compression & Translation)**:适配器 (VL Adapter) 将特征压缩并“翻译”成 LLM 能理解的特殊 token 序列。

  3. **信息融合与理解 (Information Fusion & Comprehension)**:视觉 token 与用户的文本问题一同送入大语言模型 (LLM)。

  4. **推理与生成 (Reasoning & Generation)**:LLM 进行思考,逐字生成答案:“图中有一只猫。”


3. “炼成之路”:Qwen-VL 的三阶段训练流程与数学原理解析

Qwen-VL 的训练过程系统且严谨。值得注意的是,**这三个阶段统一使用了交叉熵损失函数 (Cross-Entropy Loss)**。为了更专业地理解这一点,我们在本节引入其核心数学公式。

3.1 第一阶段:预训练 (Pre-training) - 建立基础认知

  • 学习目标:让模型建立图像和文本之间的基础对应关系。

  • 训练方法:使用 14亿 对海量图文数据。冻结 LLM,只训练 ViT 和 Adapter。

  • 核心任务:图像描述 (Image Captioning)。

  • 损失函数详解:在此阶段,模型的主要目标是最大化生成正确文本序列的概率。我们使用 交叉熵损失 (Cross-Entropy Loss),

  • 获得能力:模型通过最小化上述公式计算的损失,获得了最基础的“看图说话”能力。

3.2 第二阶段:多任务预训练 (Multi-task Pre-training) - 掌握多种技能

  • 学习目标:掌握视觉问答、文字识别、物体定位等精细技能。

  • 训练方法:引入 7 类高质量任务数据,解锁 LLM,输入图像分辨率提升至 448x448

  • 核心任务:VQA、OCR、Grounding(定位)。

  • 数学应用:公式依然是 。
    • 关键点:即使是物体定位任务(输出坐标),Qwen-VL 也是将其转化为分类任务。它将坐标数值离散化为特殊的 token(如 <box>200,300</box>),因此公式中的 在此时就代表了一个“坐标 Token”。

3.3 第三阶段:监督微调 (Supervised Fine-tuning) - 学会与人对话

  • 学习目标:学会理解人类复杂指令,进行流畅对话。

  • 训练方法:使用约 35 万条高质量对话数据。冻结 ViT,微调 LLM 和 Adapter。

  • 核心任务:指令遵循与对话 (Instruction Following)。

  • 数学应用:继续使用上述交叉熵公式,但在计算时,主要关注模型生成的“回答部分”的概率分布,使其更符合人类的对话习惯。


4. 特别揭秘:为什么全是分类损失?(回归 vs 分类)

在阅读上述数学公式时,你可能会有一个疑问:为什么预测物体坐标(看起来是连续数值)也用分类损失,而不是回归损失?

这里我们需要做一个关键澄清:Qwen-VL 三个阶段用的交叉熵损失(Cross-Entropy Loss)是分类损失,而非回归损失。

4.1 核心原因:模型的输出本质

模型的输出本质是 “文本 Token 的类别预测”,而非连续数值的回归预测。

  • 任务定义:模型的核心任务是“根据输入(图像 + 文本指令)生成连贯的文本输出”,这个过程本质是“逐 token 分类”。

  • 分类器运作:模型的输出层是一个巨大的分类器,它在每一个时间步,都会从词汇表(包含几万个字、词、符号、坐标特殊 token)中,预测“下一个 token 属于哪个类别”。

4.2 深度解析:交叉熵的作用

回顾公式 ,其核心在于 (概率)。

  • 交叉熵损失的作用,是计算 “模型预测的 Token 类别概率分布”“真实答案的 Token 类别分布” 之间的差异。

  • 回归损失(如 MSE )则是计算数值之间的距离。

简单说:模型不是在预测一个连续的数值(比如像传统回归任务那样直接预测 float 类型的坐标值 0.532),而是在预测“下一个该输出哪个字/词”。哪怕是坐标,在 Qwen-VL 眼里也是一个“词”(Token),这属于典型的分类任务,所以必须用分类损失(交叉熵)。

4.3 知识补充:回归损失 vs 分类损失

损失类型 典型算法 适用场景 核心逻辑
回归损失 MSE (均方误差) 预测连续数值(如房价、温度) 衡量预测值和真实值的绝对距离平方误差。公式常含 。
分类损失 Cross-Entropy (交叉熵) 预测离散类别(如单词、坐标 Token) 衡量预测的类别概率分布真实分布的差距。公式含 。

5. 总结:不止于看,更在于思考

Qwen-VL 的成功,依赖于架构设计的精巧——LLM 大脑、ViT 眼睛与 Adapter 桥梁的完美配合。更重要的是,它通过将视觉信号、文本信号甚至坐标信号全部统一为 Token 序列,使得模型可以利用统一的数学公式(交叉熵损失)进行端到端的训练。这种统一性,正是大语言模型迈向多模态通用智能的关键一步。


[经典环节 1] 人话总结

简单来说,Qwen-VL 就是给原本只会读文字的 Qwen 模型(大脑)装上了一个 19 亿参数的摄像头(眼睛)。但因为摄像头拍到的数据量太大,大脑处理不过来,所以中间加了一个“翻译官”(Adapter),把高清视频流压缩成大脑能听懂的“电报码”。

它的成才之路分三步走,且全程只用一种考核方式(交叉熵/做选择题)

  1. 幼儿园阶段:冻结大脑,只练眼睛和翻译官,学会看图认物(这是猫,那是狗)。

  2. 中学阶段:大脑解冻一起练,看更高清的图。重点是,哪怕是问“猫在哪里”,模型也不是在画框,而是在做选择题,从词表里选出代表坐标的那些“特殊代号”。

  3. 岗前培训:冻结眼睛,专攻大脑的对话技巧,学会像客服一样礼貌且准确地回答人类问题。


[经典环节 2] 课后大闯关:检验你的理解深度

检验自己是否完全理解该论文,以下为 5 道精选选择题。

1. Qwen-VL 训练中使用的核心损失函数公式是?

A. $\mathcal{L} = \sum (y - \hat{y})^2$ (MSE Loss)
B. $\mathcal{L} = \max(0, 1 - y \cdot \hat{y})$ (Hinge Loss)
C. $\mathcal{L} = -\sum_{i=1}^{L} \log P(y_i \mid y_{<i}, x)$ (Cross-Entropy Loss)
D. $\mathcal{L} = - \sum y \log \hat{y} + (1-y) \log (1-\hat{y})$ (Binary Cross-Entropy)

答案:C 解析

  • A 是回归任务常用的均方误差。

  • C 是正确答案。这是自回归语言模型标准的交叉熵损失公式,用于最大化预测下一个 Token 的概率。文中的核心公式正是此项。

2. 在 Qwen-VL 的架构中,负责将视觉特征压缩并“翻译”给 LLM 的组件是?

A. Openclip ViT-bigG
B. Qwen-7B
C. Visual-Language Adapter (VL Adapter)
D. Cross-Entropy Loss

答案:C 解析

  • A 是视觉编码器(眼睛)。

  • B 是大语言模型(大脑)。

  • C 是正确答案。VL Adapter 是“翻译官”,通过单层交叉注意力机制将视觉特征压缩成固定长度序列。

3. 关于 Qwen-VL 处理物体定位任务(Grounding)时的损失函数,以下说法正确的是?

A. 使用 MSE(均方误差)回归损失,因为坐标是连续数值。
B. 使用 L1 回归损失,以获得更精准的边界框。
C. 使用交叉熵(Cross-Entropy)分类损失,因为坐标被处理成了离散的 Token。
D. 不计算损失,直接使用预训练的检测器。

答案:C 解析

  • C 是正确答案。这是本文的核心考点。Qwen-VL 将坐标离散化为 Token,因此预测坐标本质上是预测 Token 的类别,属于分类任务,使用交叉熵损失。

4. 在 Qwen-VL 的第一阶段训练(预训练)中,哪些部分的参数是被冻结(Freeze)的?

A. 仅视觉编码器 (ViT)
B. 仅大语言模型 (LLM)
C. 视觉编码器和适配器
D. 所有部分都参与训练

答案:B 解析

  • 文中 3.1 节提到,第一阶段为了建立基础认知,冻结了“大脑” (LLM) 的参数,集中资源训练视觉系统 (ViT) 和适配器。

5. 下列哪项描述最准确地概括了“回归损失”与“分类损失”在 Qwen-VL 上下文中的区别?

A. 回归损失用于预测概率,分类损失用于预测数值。
B. 回归损失衡量预测类别分布的差距,分类损失衡量数值的绝对误差。
C. Qwen-VL 混合使用了回归损失(用于坐标)和分类损失(用于文本)。
D. 回归损失用于预测连续数值,分类损失用于预测离散类别;Qwen-VL 全程使用分类损失。

答案:D 解析

  • A 和 B 的定义反了。

  • C 错误,Qwen-VL 没有混合使用,而是统一使用了分类损失。

  • D 是正确答案。回归针对连续值,分类针对离散值。Qwen-VL 通过将坐标 Token 化,把所有任务都变成了离散类别的预测,因此全程使用分类损失。


原始论文地址:https://arxiv.org/pdf/2308.12966

附上高清思维导图,可以自取:

恭喜你通关哦! 多模态AI的进化速度惊人,我们正离真正的通用人工智能越来越近。

本期作者: JackLi,算法研究员,热爱paper解读,技术和工具分享。全网唯一账号:“心眸AI笔记”

*喜欢本文?持续关注!欢迎点赞、在看、转发,一起探索 AI的底层逻辑和拥抱AI。本文来自个人看法,如有见解,欢迎评论区留言。觉得有用?点个“在看” 👇,分享给身边的伙伴! 喜欢这类硬核干货?👇 关注我们,每期带你彻底读懂一篇顶会论文!

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐