论文简读 InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

InternVL3.5，一个新型开源多模态模型系列，在泛化性、推理能力和效率方面显著优于前代。核心创新包括：级联强化学习（Cascade RL）：结合离线RL（用于稳定训练）和在线RL（用于精细对齐），提升推理能力。视觉分辨率路由器（ViR）：动态调整视觉标记分辨率，以可忽略的性能损失降低计算成本。解耦视觉-语言部署（DvD）：将视觉编码器与语言模型分置于不同GPU，优化计算负载。这些技术使模型在

万里鹏程转瞬至

902人浏览 · 2025-12-21 21:04:26

万里鹏程转瞬至 · 2025-12-21 21:04:26 发布

在这里插入图片描述

Code: https://github.com/OpenGVLab/InternVL
Model: https://huggingface.com/OpenGVLab/InternVL3.5-241B-A28B
开源时间：2025年8月27日

InternVL3.5，一个新型开源多模态模型系列，在泛化性、推理能力和效率方面显著优于前代。核心创新包括：

级联强化学习（Cascade RL）：结合离线RL（用于稳定训练）和在线RL（用于精细对齐），提升推理能力。
视觉分辨率路由器（ViR）：动态调整视觉标记分辨率，以可忽略的性能损失降低计算成本。
解耦视觉-语言部署（DvD）：将视觉编码器与语言模型分置于不同GPU，优化计算负载。

这些技术使模型在整体性能上实现 +16.0% 的提升，推理速度达 4.05× 加速。最大模型 InternVL3.5-241B-A28B 在文本-图像任务上表现媲美 GPT-5。所有模型与代码已开源。

在这里插入图片描述

1 Introduction

多模态大语言模型（MLLMs）正向复杂任务演进，但面临缺乏稳定、高效强化学习框架及高计算成本的问题。

InternVL3.5 基于 InternVL 系列升级，具备更强的通用性、推理与效率：

提出 Cascade RL 框架：先用离线RL预热，再用在线RL优化输出分布，实现逐步性能提升。
引入 ViR 与 DvD 技术，显著提升推理效率。

实验表明：

相比 InternVL3，推理性能提升高达 +16.0%，推理速度加快 4.05×。
在 MMMU 和 MathVista 等基准上领先开源模型；InternVL3.5-24B-A28B 与 GPT-5 差距缩小至 3.9%。
支持 GUI 交互、具身任务和 SVG 理解生成等新能力。

贡献总结：
(1) 发布 InternVL3.5 系列，涵盖从 1B 到 241B 的密集与 MoE 模型，全部开源。
(2) 提出三项关键技术：Cascade RL、ViR、DvD，显著增强能力与效率。
(3) 实验证明其在多模态任务中达到或超越商用模型水平。

<图片2/>
InternVL3.5沿用前代版本的‘视觉- MLP -语言模型（ViT- MLP -LLM）’范式。在此基础上，进一步推出InternVL3.5-Flash版本，新增视觉分辨率路由器（ViR）功能，可动态为每个图像块选择合适的压缩率（如1/4或1/6）。与仅从图像宽高角度分割图像块的动态高分辨率技术不同，ViR还引入了基于语义内容的自适应机制。

2 InternVL3.5

2.1 Model Architecture

采用“ViT-MLP-LLM”架构，使用 Qwen3/GPT-OSS 初始化 LLM，InternViT-300M/6B 初始化 ViT。保留动态高分辨率策略。

InternVL3.5-Flash 新增 视觉分辨率路由器（ViR）：

根据图像块语义丰富度选择压缩率（如 1/4 或 1/16）。
减少 50% 视觉标记数，保持近 100% 性能。

<表格1/>

2.2 预训练

训练目标：

使用下一个标记预测（NTP）损失，仅响应标记参与损失计算。
采用平方平均重加权 NTP 损失，缓解长短响应偏差。
加入随机 JPEG 压缩增强鲁棒性。

在预训练阶段，我们使用大规模文本和多模态语料的组合联合更新所有模型参数。具体来说，给定任意训练样本，该样本由多模态标记序列 $\mathbf{x} = (x_1, x_2, \dots, x_L)$ 组成，下一个标记预测（NTP）损失 [103] 在每个文本标记上计算如下：

$\mathcal{L}_i = -\log p_\theta(x_i \mid x_1, \dots, x_{i-1}), \tag{1}$

其中 $x_i$ 是预测标记，前缀标记 $\{x_1, x_2, \dots, x_{i-1}\}$ 可以是文本标记或图像标记。特别是，对于对话样本，只有响应标记被包含在损失计算中。此外，为了减轻训练期间对更长或更短响应的偏差，我们采用平方平均 [13] 来重新加权 NTP 损失，如下所示：

$\mathcal{L}_i' = \frac{w_i}{\sum_j w_j} \cdot \mathcal{L}_i, \quad w_i = \frac{1}{N^{0.5}}, \tag{2}$
其中 $N$ 表示需要计算损失的训练样本中的标记数。随机 JPEG 压缩 [13] 也被包括进来以增强模型的真实世界性能。

数据：

总计约 1160M 样本（250B 标记），纯文本 : 多模态 ≈ 1:2.5。
覆盖图像描述、OCR、图表理解、医学等多领域。
最大序列长度为 32K。

2.3 后训练

InternVL3.5的训练流程包含三个阶段：(1) 基于视觉-语言对齐的原生预训练，(2) 通过监督微调适应下游任务，(3) 采用级联强化学习提升推理能力。InternVL3.5-Flash是InternVL3.5的高效版本，通过一致性训练和路由器训练进一步整合了视觉分辨率路由器（ViR）。
<图片3/>
三阶段后训练流程：

监督微调（SFT）：使用高质量对话数据，上下文窗口设为 32K。
- 包含指令遵循、带“思考”链的推理数据、GUI/SVG/嵌入式任务扩展数据。
级联强化学习（Cascade RL）：
- 第一阶段：使用 MPO（混合偏好优化）进行离线RL，作为高效预热。
- 第二阶段：使用 GSPO 进行在线RL，基于自生成序列优化输出分布。
- 显著提升稳定性、效率与性能上限。

MPO的训练目标是偏好损失 $\mathcal{L}_p$ 、质量损失 $\mathcal{L}_q$ 和生成损失 $\mathcal{L}_g$ 的组合，其公式如下：
$\mathcal{L}_{\text{MPO}} = w_p \mathcal{L}_p + w_q \mathcal{L}_q + w_g \mathcal{L}_g, \tag{3}$
其中， $w_s$ 表示分配给每个损失组件的权重。DPO损失[104]、BCO损失[53]和LM损失[8]分别作为偏好损失、质量损失和生成损失。
其中 $y_i$ 是查询 $x$ 生成的第 $i$ 个响应， $G$ 是查询生成的响应总数，且 $r(x, y_i)$ 表示该响应的奖励。GSPO 的训练目标由以下公式给出：
$\mathcal{L}_{\text{GSPO}}(\theta) = \mathbb{E}_{x \sim \mathcal{D}, \{y_i\}_{i=1}^G \sim \pi_{\text{old}}(\cdot | x)} \left[ \frac{1}{G} \sum_{i=1}^G \min \left( s_i(\theta) \hat{A}_i, \text{clip}\left(s_i(\theta), 1 - \varepsilon, 1 + \varepsilon\right) \hat{A}_i \right) \right], \tag{5}$
其中重要性采样比例定义为每个标记比例的几何平均值：
$s_i(\theta) = \left( \frac{\pi_\theta(y_i \mid x)}{\pi_{\theta_{\text{old}}}(y_i \mid x)} \right)^{\frac{1}{|y_i|}} = \exp\left( \frac{1}{|y_i|} \sum_{t=1}^{|y_i|} \log \frac{\pi_\theta(y_{i,t} \mid x, y_{i,<t})}{\pi_{\theta_{\text{old}}}(y_{i,t} \mid x, y_{i,<t})} \right), \tag{6}$
其中 $\pi_\theta(y_i \mid x, y_{i,<t})$ 和 $\pi_{\theta_{\text{old}}}(y_{i,t} \mid x, y_{i,<t})$ 分别表示在参数为 $\theta$ 的策略模型下响应 $y_i$ 和标记 $y_{i,t}$ 的生成概率。

与直接使用单一强化学习范式训练模型相比，级联强化学习（Cascade RL）具有以下优势：
(1) 更好的训练稳定性：在离线强化学习阶段，回溯收集和参数更新是解耦的，有效缓解了奖励作弊等问题。在在线强化学习阶段，我们经验性地观察到，更强的模型表现出更稳定和稳健的训练动态。因此，在MPO阶段获得的性能提升进一步增强了GSPO阶段的稳定性，并降低了对算法的敏感性。
(2) 改进的训练效率：在MPO阶段，回溯可以共享给不同的模型，摊销了在线强化学习通常产生的采样成本。
(3) 更高的性能上限：此外，如第3.15节所示，使用MPO微调的模型在后续在线强化学习阶段以更少的训练步数达到更高的性能，进一步降低了训练开销。

视觉一致性学习（ViCO）：
- 训练模型在不同压缩率下输出一致。
- 冻结主干，训练 ViR 分类器选择最优分辨率。
- 实现 InternVL3.5-Flash，减少 50% 视觉标记，性能损失可忽略。

将ViCO作为额外的训练阶段，将视觉分辨率路由器（ViR）集成到InternVL3.5中，从而降低InternVL3.5的推理成本。获得的高效版本的InternVL3.5称为InternVL3.5-Flash。特别是，ViCO包含两个阶段：

(1) 一致性训练：在此阶段，整个模型被训练以最小化在不同压缩率下基于视觉标记的响应分布之间的差异。在实践中，我们引入一个额外的参考模型，该模型使用InternVL3.5冻结并初始化。给定一个样本，每个图像块表示为256或64个标记，训练目标定义如下：
$\mathcal{L}_{\text{ViCO}} = \mathbb{E}_{\xi \sim \mathcal{R}} \left[ \frac{1}{N} \sum_{i=1}^N \text{KL} \left( \pi_{\theta_{\text{ref}}} \left( y_i \mid y_{<i}, I_\xi \right) \parallel \pi_{\theta_{\text{policy}}} \left( y_i \mid y_{<i}, I_\xi \right) \right) \right], \tag{7}$
其中KL表示KL散度， $\xi$ 表示压缩率，均匀采样自 $\{\frac{1}{4}, \frac{1}{16}\}$ 。图像 $I$ 在 $\xi = \frac{1}{4}$ 时表示为256个标记，在 $\xi = \frac{1}{16}$ 时表示为64个标记。我们注意到参考模型始终使用 $\xi = \frac{1}{4}$ 进行推理。

(2) 路由器训练：此阶段旨在训练ViR以针对不同输入选择适当的分辨率。ViR被建模为二元分类器，并使用标准交叉熵损失进行训练。为了构建路由目标，我们首先计算基于未压缩视觉标记（即每个块256个标记）和压缩视觉标记（即每个块64个标记）的模型输出之间的KL散度。在此阶段，主要的多模态大语言模型（ViT、MLP和LLM）保持冻结，仅训练ViR。具体地，我们首先计算每个块的损失比：
$r_i = \frac{\mathcal{L}_{\text{ViCO}}(y_i \mid I_{\frac{1}{16}})}{\mathcal{L}_{\text{ViCO}}(y_i \mid I_{\frac{1}{4}})}, \tag{8}$
该比值量化了压缩视觉标记导致的损失相对增加。基于此比值，块路由器的二元真实标签定义为：
$y_i^{\text{router}} = \begin{cases} 0, & r_i < \tau \text{ (压缩影响可忽略)} \\ 1, & r_i \geq \tau \text{ (压缩有显著影响)}, \end{cases} \tag{9}$
其中 $y_i^{\text{router}} = 0$ 和 $y_i^{\text{router}} = 1$ 分别表示压缩率 $\xi$ 设置为 $\frac{1}{16}$ 和 $\frac{1}{4}$ 。在训练中，我们存储滑动窗口的历史 $r_i$ 值， $\tau$ 是从历史 $r_i$ 值的第 $k$ 百分位数计算出的动态阈值。在实践中，目标分布是平衡的。在一致性训练阶段，同一图像的所有块以随机压缩率表示，以确保模型在未压缩时仍保留其能力。如第3.15节所示，InternVL3.5-Flash在保持近100%原始性能的同时，减少了50%的视觉标记。

2.4 Test-Time Scaling

测试时缩放（TTS）已被实证证明是一种有效的方法，用于增强LLM和MLLM在复杂任务上的推理能力，特别是需要多步推理的任务 [65, 82, 113, 143, 179]。在本文中，我们提出了一种全面的测试时缩放方法，该方法同时改进推理深度（即深度思考）和推理广度（即并行思考）。我们注意到，如果不加说明，本文报告的实验结果是在未应用TTS的情况下获得的。迄今为止，我们仅将TTS应用于推理基准测试，因为我们发现模型已经具有强大的感知能力，因此TTS对模型的改进不显著。

Deep Thinking。通过激活思考模式，我们引导模型在生成最终答案之前，有意识地进行逐步推理（即，将复杂问题分解为逻辑步骤并验证中间结论）。这种方法系统地改进了复杂问题解决方案的逻辑结构，特别是那些需要多步推理的问题，并增强了推理深度。

Parallel Thinking。对于推理任务，我们遵循InternVL3，采用最佳- N（BoN）策略，使用VisualPRM-v1.1 [143] 作为评判模型，从多个推理候选答案中选择最优响应。这种方法提升了推理广度。

2.5 Infrastructure

训练框架：
基于 XTuner，集成多项优化：

FSDP 参数划分、数据打包、FP8 训练、FlashAttention-3、TMA-Adaptive FP8 GEMM。
在线阶段使用 ver1 框架。

解耦视觉-语言部署（DvD）：

将 ViT 和 MLP 部署在视觉服务器，LLM 部署在语言服务器。
视觉子系统批处理图像生成特征嵌入，传输至语言子系统融合。
缓解视觉与语言模块相互阻塞问题，尤其在高分辨率或多图场景中效果显著。

解耦式视觉-语言部署架构概述。DvD架构将视觉模型与语言模型解耦，分别部署在独立服务器上。右侧展示了该流程的时间消耗轨迹。(a)在原始部署方案中，视觉模型（ViT）、 MLP 和语言模型（LLM）采用顺序执行模式。由于三者在规模和计算模式上存在显著差异，这种串行设计会大幅拖慢推理速度。(b)采用DvD架构后，视觉模型与语言模型的推理过程实现并行异步处理。通过将视觉模型的计算任务与语言模型的预填充及解码任务进行时间重叠，有效减少了资源冲突，显著提升了推理效率。

<图片4/>

3 Experiments

3.1 整体对比

表2显示 InternVL3.5 在多个基准上领先开源模型：

InternVL3.5-241B-A28B 在 Overall 得分为 77.9，接近 GPT-5（–）。
推理任务 Overall 达 67.1，仅次于 GPT-5（74.3）。
文本任务 Overall 达 85.3，接近 GPT-5（91.3）。

3.2 多模态推理与数学

在 MMMU、MathVista 等基准上全面领先：

InternVL3.5-30B-A3B 在 MMMU 上得 75.6，超过更大的 InternVL3-78B（72.2）。
InternVL3.5-2B 平均分 50.7，远超 InternVL3-2B（32.4）。
Cascade RL 是主要增益来源，并与并行思考协同增效：
- +2.6%（4B）、+2.1%（8B）、+1.8%（241B-A28B）。

在该能力上，thinking模式对于小规模效果提升明显。
<表格3/>

3.3 OCR、图表与文档理解

在 A12D、ChartQA、DocVQA 等九项任务中表现优异：

InternVL3.5-2B 平均得分 76.7，优于 InternVL3-2B（74.7）。
在 DocVQA 上达 89.4，InfoVQA 上达 70.8。

在该能力上，3.5版本不如3.0版本
<表格4/>

3.4 多图像理解

在 BLINK、MMU 等六项基准上持续领先：

InternVL3.5-2B 总体得分 50.5，InternVL3.5-241B-A28B 提升至 65.5。
模型越大，多图理解提升越明显。

3.5 真实世界理解

在 RealWorldQA、WildVision 等四基准上表现可比或优于 SOTA：

InternVL3.5-241B-A28B 总体得分 74.6，优于 GPT-4o（部分指标）。

<表格5/>

3.6 综合多模态理解

在 MMBench、MMVet、MMStar 上表现强劲：

InternVL3.5-241B-A28B 在 MMVet 上得 87.4，MMStar 上得 81.2，整体 84.2。

3.7 多模态幻觉评估

在 HallusionBench、CRPE、POPE 上幻觉率更低：

相比前代，2B 模型整体改进 +2.6，38B +1.0。

<表格5/>

3.8 视觉定位

在 RefCOCO 系列上达到 SOTA：

InternVL3.5-241B-A28B 在 RefCOCO 上整体准确率达 92.4，超越前代。

<表格7/>

3.9 多模态多语言理解

在 MMBM、多语言 MMBench 等基准上覆盖六种语言：

InternVL3.5-241B-A28B 多语言整体分数比 GPT-4V 高 14.7%。

<表格8/>

3.10 视频理解

在 Video-MME、LongVideoBench 等五基准上领先：

InternVL3.5-1B 在 LongVideoBench 上提升 4.9%。
所有变体均优于对应前代。

<表格9/>

3.11 GUI Agent Tasks

在 ScreenSpot、OSWorld-G 等六项任务中表现突出：

InternVL3.5-241B-A28B 在 ScreenSpot-v2 上得 92.9，接近 Seel 5-VL（95.2）。
在 WebArena-Lite-v2 上得 11.7，大幅优于 GPT-4o（1.9）。

<表格10/>

3.12 具身智能代理任务

在 VSI-Bench、ERQA 等四项任务中展现强大能力：

InternVL3.5-1B 在 VSI-Bench 上得 49.3，较前代提升 19.6%。
InternVL3.5-241B-A28B 在 ERQA 上得 46.8，接近 Gemini-2.5-Pro（48.3）。

<表格11/>

3.13 SVG任务

在 SGP-Bench 上树立新标杆：

InternVL3.5-241B-A28B 在 Text2SVG 中 FID 降至 11.27，FID-C 为 4.43，优于 GPT-4o（15.18）。
在 Img2SVG 结构相似性上领先。

<表格12/>

<表格13/>

3.14 语言能力评估

在 MMLU-Pro、C-Eval、AIME 等基准上超越基线语言模型：

InternVL3.5-1B 比 Qwen-0.6B 高 +6.7。
InternVL3.5-241B-A28B 比 Qwen-235B-A2B 高 +2.3。

<表格14/>

3.15 消融研究

Cascade RL 消融：

SFT 后已有提升（如 8B 模型 +9.3%）。
MPO 阶段进一步带来 +3.5% 推理增益。
完整 Cascade RL 使 2B 模型推理性能提升 +12.2%，241B-A28B 提升 +6.5%。
Cascade RL 仅需 GSPO 一半 GPU 小时即实现更优性能。

ViR 效果：

InternVL3.5-Flash 在 DocVQA 上保持 80.2 vs. 79.8（8B），性能几乎无损。
推理速度提升至 4.05×。

在这里插入图片描述

DvD 效果：

DvD 单独提速 2.01×（241B-A28B）。
输入分辨率越高，DvD 增益越大：从 448→1344，提速从 1.19× 提升至 1.97×。

4 结论

InternVL3.5 通过 Cascade RL、ViR 和 DvD 实现了推理性能 +16.0% 与推理速度 4.05× 加速。
支持 GUI、具身、SVG 等新任务，InternVL3.5-241B-A28B 在多项指标上逼近甚至媲美 GPT-5。
全部模型与代码已开源，有望推动多模态 AI 发展。