开源视觉AI的翘楚，揭秘Qwen-VL，，“看、懂、想”三位一体的内核

今天是 2025 年 12 月 22 日，周一。眼瞅着双旦将至，快过年了，咱们解读论文的节奏也得提提速！想象一下，有一位博览群书、才华横溢的思想家，但他的一生都只在纯文字的世界里度过，从未见过真实世界的色彩与形态。这就像是传统的大语言模型（LLM），它们在文本理解和生成上能力超群，却是一个“失明”的天才。现在，让我们给这位思想家安上一双锐利的眼睛，让他不仅能阅读万卷书，还能看见万物，理解图像中的信

乐享时分

225人浏览 · 2025-12-23 00:44:10

乐享时分 · 2025-12-23 00:44:10 发布

今天是 2025 年 12 月 22 日，周一。眼瞅着双旦将至，快过年了，咱们解读论文的节奏也得提提速！

想象一下，有一位博览群书、才华横溢的思想家，但他的一生都只在纯文字的世界里度过，从未见过真实世界的色彩与形态。这就像是传统的大语言模型（LLM），它们在文本理解和生成上能力超群，却是一个“失明”的天才。

现在，让我们给这位思想家安上一双锐利的眼睛，让他不仅能阅读万卷书，还能看见万物，理解图像中的信息。这就是 Qwen-VL 带来的革命性一步：它让一个强大的语言大脑，第一次拥有了感知和理解视觉世界的能力。

本文旨在为您清晰地揭示 Qwen-VL 的内在构造。读完这篇解析，您将深入了解构成 Qwen-VL 的三个核心“积木”，以及它是如何通过三个阶段的训练，统一使用“分类损失”这一数学利器，打开了多模态智能的大门。

1. 认识“三剑客”：Qwen-VL 的核心组件剖析

Qwen-VL 的强大能力，源于一个由三位“专家”紧密协作的团队。每一位专家都身怀绝技，共同完成“看图、理解、思考、回答”的复杂任务。

为了让您快速认识它们，我们整理了下表：

角色 / 类比	技术名称	核心功能	参数规模
[大脑]	大语言模型 (LLM)	负责文本理解、对话生成、逻辑推理	77亿 (7.7B)
[眼睛]	视觉编码器 (ViT)	将图像拆分为小块并提取视觉特征	19亿 (1.9B)
[翻译官]	视觉-语言适配器 (VL Adapter)	压缩视觉特征，并将其“翻译”成大脑能理解的语言	0.8亿 (0.08B)

总计参数规模：约 96亿 (9.6B)

下面，我们来逐一详解这三位专家。

1.1 [大脑] 大语言模型 (LLM)

LLM 是 Qwen-VL 的基石与核心，它基于强大的 Qwen-7B 模型构建。它的职责是处理所有与语言相关的任务，例如理解用户提出的文本问题、进行复杂的逻辑推理以及生成流畅、自然的文本回答。模型的所有“智慧”与“思考能力”都来源于这个强大的大脑。

1.2 [眼睛] 视觉编码器 (ViT)

视觉编码器（ViT）扮演着“眼睛”的角色，负责处理所有输入的图像信息。它基于 Openclip ViT-bigG 架构，将整张图片切割成一个个小方块（patches），并将这些视觉信息（如颜色、纹理、形状）转换成计算机可以处理的数字特征。

1.3 [翻译官] 视觉-语言适配器 (VL Adapter)

这是连接“眼睛”和“大脑”的关键桥梁。ViT 提取的视觉特征是一种“图像语言”，而 LLM 只懂“文本语言”。VL Adapter 负责弥合两者之间的鸿沟。它通过 **单层交叉注意力机制 (Single-layer Cross-attention)**，将 ViT 生成的长序列高效压缩成一个固定长度（256）的短序列，同时融入 2D 绝对位置编码，以支持精细的物体定位任务。

2. 团队协作：揭示 Qwen-VL 的“看图说话”流程

让我们以一个简单的用户请求为例，看看 Qwen-VL 内部的工作流。假设用户向 Qwen-VL 展示一张图片，并提问：“图里有什么？”

**图像输入 (Image Input)**：视觉编码器 (ViT) 首先“看到”这张图片，并转化为视觉特征。
**特征压缩与翻译 (Feature Compression & Translation)**：适配器 (VL Adapter) 将特征压缩并“翻译”成 LLM 能理解的特殊 token 序列。
**信息融合与理解 (Information Fusion & Comprehension)**：视觉 token 与用户的文本问题一同送入大语言模型 (LLM)。
**推理与生成 (Reasoning & Generation)**：LLM 进行思考，逐字生成答案：“图中有一只猫。”

3. “炼成之路”：Qwen-VL 的三阶段训练流程与数学原理解析

Qwen-VL 的训练过程系统且严谨。值得注意的是，**这三个阶段统一使用了交叉熵损失函数 (Cross-Entropy Loss)**。为了更专业地理解这一点，我们在本节引入其核心数学公式。

3.1 第一阶段：预训练 (Pre-training) - 建立基础认知

学习目标：让模型建立图像和文本之间的基础对应关系。
训练方法：使用 14亿 对海量图文数据。冻结 LLM，只训练 ViT 和 Adapter。
核心任务：图像描述 (Image Captioning)。
损失函数详解：在此阶段，模型的主要目标是最大化生成正确文本序列的概率。我们使用交叉熵损失 (Cross-Entropy Loss)，
获得能力：模型通过最小化上述公式计算的损失，获得了最基础的“看图说话”能力。

3.2 第二阶段：多任务预训练 (Multi-task Pre-training) - 掌握多种技能

学习目标：掌握视觉问答、文字识别、物体定位等精细技能。
训练方法：引入 7 类高质量任务数据，解锁 LLM，输入图像分辨率提升至 448x448。
核心任务：VQA、OCR、Grounding（定位）。
数学应用：公式依然是。
- 关键点：即使是物体定位任务（输出坐标），Qwen-VL 也是将其转化为分类任务。它将坐标数值离散化为特殊的 token（如 <box>200,300</box>），因此公式中的在此时就代表了一个“坐标 Token”。

3.3 第三阶段：监督微调 (Supervised Fine-tuning) - 学会与人对话

学习目标：学会理解人类复杂指令，进行流畅对话。
训练方法：使用约 35 万条高质量对话数据。冻结 ViT，微调 LLM 和 Adapter。
核心任务：指令遵循与对话 (Instruction Following)。
数学应用：继续使用上述交叉熵公式，但在计算时，主要关注模型生成的“回答部分”的概率分布，使其更符合人类的对话习惯。

4. 特别揭秘：为什么全是分类损失？(回归 vs 分类)

在阅读上述数学公式时，你可能会有一个疑问：为什么预测物体坐标（看起来是连续数值）也用分类损失，而不是回归损失？

这里我们需要做一个关键澄清：Qwen-VL 三个阶段用的交叉熵损失（Cross-Entropy Loss）是分类损失，而非回归损失。

4.1 核心原因：模型的输出本质

模型的输出本质是 “文本 Token 的类别预测”，而非连续数值的回归预测。

任务定义：模型的核心任务是“根据输入（图像 + 文本指令）生成连贯的文本输出”，这个过程本质是“逐 token 分类”。
分类器运作：模型的输出层是一个巨大的分类器，它在每一个时间步，都会从词汇表（包含几万个字、词、符号、坐标特殊 token）中，预测“下一个 token 属于哪个类别”。

4.2 深度解析：交叉熵的作用

回顾公式，其核心在于（概率）。

交叉熵损失的作用，是计算 “模型预测的 Token 类别概率分布” 和 “真实答案的 Token 类别分布” 之间的差异。
回归损失（如 MSE ）则是计算数值之间的距离。

简单说：模型不是在预测一个连续的数值（比如像传统回归任务那样直接预测 float 类型的坐标值 0.532），而是在预测“下一个该输出哪个字/词”。哪怕是坐标，在 Qwen-VL 眼里也是一个“词”（Token），这属于典型的分类任务，所以必须用分类损失（交叉熵）。

4.3 知识补充：回归损失 vs 分类损失

损失类型	典型算法	适用场景	核心逻辑
回归损失	MSE (均方误差)	预测连续数值（如房价、温度）	衡量预测值和真实值的绝对距离或平方误差。公式常含。
分类损失	Cross-Entropy (交叉熵)	预测离散类别（如单词、坐标 Token）	衡量预测的类别概率分布和真实分布的差距。公式含。

5. 总结：不止于看，更在于思考

Qwen-VL 的成功，依赖于架构设计的精巧——LLM 大脑、ViT 眼睛与 Adapter 桥梁的完美配合。更重要的是，它通过将视觉信号、文本信号甚至坐标信号全部统一为 Token 序列，使得模型可以利用统一的数学公式（交叉熵损失）进行端到端的训练。这种统一性，正是大语言模型迈向多模态通用智能的关键一步。

[经典环节 1] 人话总结

简单来说，Qwen-VL 就是给原本只会读文字的 Qwen 模型（大脑）装上了一个 19 亿参数的摄像头（眼睛）。但因为摄像头拍到的数据量太大，大脑处理不过来，所以中间加了一个“翻译官”（Adapter），把高清视频流压缩成大脑能听懂的“电报码”。

它的成才之路分三步走，且全程只用一种考核方式（交叉熵/做选择题）：

幼儿园阶段：冻结大脑，只练眼睛和翻译官，学会看图认物（这是猫，那是狗）。
中学阶段：大脑解冻一起练，看更高清的图。重点是，哪怕是问“猫在哪里”，模型也不是在画框，而是在做选择题，从词表里选出代表坐标的那些“特殊代号”。
岗前培训：冻结眼睛，专攻大脑的对话技巧，学会像客服一样礼貌且准确地回答人类问题。

[经典环节 2] 课后大闯关：检验你的理解深度

检验自己是否完全理解该论文，以下为 5 道精选选择题。

1. Qwen-VL 训练中使用的核心损失函数公式是？

A. $\mathcal{L} = \sum (y - \hat{y})^2$ (MSE Loss)
B. $\mathcal{L} = \max(0, 1 - y \cdot \hat{y})$ (Hinge Loss)
C. $\mathcal{L} = -\sum_{i=1}^{L} \log P(y_i \mid y_{<i}, x)$ (Cross-Entropy Loss)
D. $\mathcal{L} = - \sum y \log \hat{y} + (1-y) \log (1-\hat{y})$ (Binary Cross-Entropy)

答案：C 解析：

A 是回归任务常用的均方误差。

C 是正确答案。这是自回归语言模型标准的交叉熵损失公式，用于最大化预测下一个 Token 的概率。文中的核心公式正是此项。

2. 在 Qwen-VL 的架构中，负责将视觉特征压缩并“翻译”给 LLM 的组件是？

A. Openclip ViT-bigG
B. Qwen-7B
C. Visual-Language Adapter (VL Adapter)
D. Cross-Entropy Loss

答案：C 解析：

A 是视觉编码器（眼睛）。

B 是大语言模型（大脑）。

C 是正确答案。VL Adapter 是“翻译官”，通过单层交叉注意力机制将视觉特征压缩成固定长度序列。

3. 关于 Qwen-VL 处理物体定位任务（Grounding）时的损失函数，以下说法正确的是？

A. 使用 MSE（均方误差）回归损失，因为坐标是连续数值。
B. 使用 L1 回归损失，以获得更精准的边界框。
C. 使用交叉熵（Cross-Entropy）分类损失，因为坐标被处理成了离散的 Token。
D. 不计算损失，直接使用预训练的检测器。

答案：C 解析：

C 是正确答案。这是本文的核心考点。Qwen-VL 将坐标离散化为 Token，因此预测坐标本质上是预测 Token 的类别，属于分类任务，使用交叉熵损失。

4. 在 Qwen-VL 的第一阶段训练（预训练）中，哪些部分的参数是被冻结（Freeze）的？

A. 仅视觉编码器 (ViT)
B. 仅大语言模型 (LLM)
C. 视觉编码器和适配器
D. 所有部分都参与训练

答案：B 解析：

文中 3.1 节提到，第一阶段为了建立基础认知，冻结了“大脑” (LLM) 的参数，集中资源训练视觉系统 (ViT) 和适配器。

5. 下列哪项描述最准确地概括了“回归损失”与“分类损失”在 Qwen-VL 上下文中的区别？

A. 回归损失用于预测概率，分类损失用于预测数值。
B. 回归损失衡量预测类别分布的差距，分类损失衡量数值的绝对误差。
C. Qwen-VL 混合使用了回归损失（用于坐标）和分类损失（用于文本）。
D. 回归损失用于预测连续数值，分类损失用于预测离散类别；Qwen-VL 全程使用分类损失。

答案：D 解析：

A 和 B 的定义反了。

C 错误，Qwen-VL 没有混合使用，而是统一使用了分类损失。

D 是正确答案。回归针对连续值，分类针对离散值。Qwen-VL 通过将坐标 Token 化，把所有任务都变成了离散类别的预测，因此全程使用分类损失。

原始论文地址：https://arxiv.org/pdf/2308.12966

附上高清思维导图，可以自取：

恭喜你通关哦！ 多模态AI的进化速度惊人，我们正离真正的通用人工智能越来越近。

本期作者: JackLi，算法研究员，热爱paper解读，技术和工具分享。全网唯一账号：“心眸AI笔记”

*喜欢本文？持续关注！欢迎点赞、在看、转发，一起探索 AI的底层逻辑和拥抱AI。本文来自个人看法，如有见解，欢迎评论区留言。觉得有用？点个“在看” 👇，分享给身边的伙伴！ 喜欢这类硬核干货？👇 关注我们，每期带你彻底读懂一篇顶会论文！

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

（AI）现代信号处理-参数估计理论

方法需要什么？优点缺点适用场景MLE似然函数 f(y|θ)渐近最优、无偏可能有偏、需解非线性方程通信、雷达参数估计Bayes先验 + 似然利用先验、可输出完整后验需要知道先验分布医学诊断、AI推理LMS相关函数 E{syᵢ}, E{yᵢyⱼ}线性、易实现限于线性、需二阶统计量自适应滤波、预测LS/WLS观测模型 Ax=b无需概率、解析解对异常值敏感系统辨识、曲线拟合。

2048 AI社区

智能体在车联网中的应用：第13天深度学习入门：前向传播与反向传播的数学本质与PyTorch/TensorFlow实践

本文深入解析多层感知机（MLP）的核心计算过程——前向传播与反向传播。前向传播通过输入数据的逐层加权计算和激活函数变换得到预测结果，反向传播则利用链式法则逆向计算参数梯度以优化网络。文章详细推导了单隐藏层MLP的数学原理，并通过PyTorch和TensorFlow/Keras双框架实践演示：使用PyTorch手动构建训练流程，展示梯度计算与参数更新；利用Keras高阶API快速实现模型定义与训练。