CVPR 2026 | 推理加速 2.16 倍！港科大等提出 MODES：首个多模态 MoE 动态跳过框架

MODES 的出现，标志着多模态大模型推理进入了“精细化管理”时代。它不仅让我们看到了“偷懒”的艺术——即跳过那些不重要的专家，更通过科学的全局调度和模态感知，证明了高效与精准可以兼得。如果你正在为多模态模型的部署速度头疼，MODES 无疑是一剂良方。

马拉AI

395人浏览 · 2026-03-05 11:26:19

马拉AI · 2026-03-05 11:26:19 发布

在人工智能领域，多模态大模型（MLLM）如 Qwen2-VL、DeepSeek-VL 等正以前所未有的速度改变我们的生活。然而，随着模型规模的不断膨胀，推理时的计算开销和延迟也成了横在落地应用前的“大山”。

你是否想过，在处理每一条指令、每一张图片时，模型中成百上千个“专家”（Experts）真的都需要全力以赴吗？

由香港科技大学和北京航空航天大学等机构联合提出的 MODES 框架，给出了一个否定的答案。它通过动态专家跳过（Dynamic Expert Skipping），在保持极高准确度的同时，显著提升了推理速度。

论文标题： MODES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

论文地址： https://arxiv.org/abs/2511.15690

开源地址： https://github.com/ModelTC/MODES)

核心痛点：为什么之前的“跳过”不灵了？

在混合专家（MoE）架构中，每个 token 理论上只由部分专家处理。为了更高效，开发者尝试进一步跳过那些贡献较小的专家。但研究团队发现，直接把纯文本模型的“专家跳过”方法搬到多模态模型上，性能会断崖式下跌 。

核心原因有二：

全局贡献不均（Insight i）： 浅层专家其实比深层专家重要得多。在浅层犯的小错，会被后续层层放大，引发“误差爆炸” 。
模态间存在代沟（Insight ii）： 视觉 Token 和文本 Token 在专家层里的表现完全不同。视觉 Token 在经过 FFN（前馈网络）时更新幅度较小，专家对其冗余度更高。

创新黑科技：MODES 的两大法宝

MODES 是第一个专门为 MoE MLLM 设计的**免训练（Training-free）**加速框架。它主要靠两个核心机制发力：

1. 全局调制局部路由 (GMLG)

传统的路由只看当前层的局部表现，而 GMLG 引入了“全局视野”。它通过离线校准，给每一层算出一个“重要性系数” $α(l)\alpha^{(l)}$ 。

重要性评分公式：
$si(l)=α(l)⋅πi(l)s_i^{(l)} = \alpha^{(l)} \cdot \pi_i^{(l)}$

(其中 $πi(l)\pi_i^{(l)}$ 是局部路由概率， $α(l)\alpha^{(l)}$ 是该层的全局贡献因子)

这样，浅层关键专家的分数会被调高，不容易被跳过；深层冗余专家的分数被调低，更敢于“偷懒” 。

2. 双模态阈值 (DMT)

既然视觉和文本 token 脾气不同，那就因材施教。MODES 为它们分别设定了跳过阈值 $τt\tau_t$ （文本）和 $τv\tau_v$ （视觉）。

跳过逻辑： 如果一个专家的得分 $s_i^{(l)}$ 低于对应模态的阈值，直接跳过！

搜索加速：从“两天”到“两小时”

为了找到最完美的 $τt\tau_t$ 和 $τv\tau_v$ ，研发团队提出了一种前沿搜索（Frontier Search）算法 。利用性能损失和效率之间的单调性，搜索时间直接从 2 天多缩短到不到 2 小时，效率提升惊人。

实力说话：又快又准的“成绩单”

在 3 个模型系列、13 个基准测试上的实验显示，MODES 堪称全场最强：

性能炸裂： 在 Qwen3-VL-MoE-30B 上跳过 88% 的专家时，MODES 的表现比之前的 SOTA 方法高出 10.67%，且依然保留了原模型 95% 以上的精度。
速度飞起： 在推理过程中，Prefilling（预填充）速度提升了 2.16 倍，Decoding（解码）速度提升了 1.26 倍 。

选自论文中的关键图表：

图 1 (Figure 1)： 清晰展示了在不同专家跳过比例下，MODES 的平均性能曲线远高于 DIEP、MC-MoE 等同类方法。
图 3 (Figure 3)： 揭示了视觉与文本 token 在 FFN 层中的行为差异，验证了双模态处理的必要性。
图 8 (Figure 8)： 直观展示了 MODES 在深层和视觉模态上更积极地进行专家跳过。

总结

MODES 的出现，标志着多模态大模型推理进入了“精细化管理”时代。它不仅让我们看到了“偷懒”的艺术——即跳过那些不重要的专家，更通过科学的全局调度和模态感知，证明了高效与精准可以兼得。

如果你正在为多模态模型的部署速度头疼，MODES 无疑是一剂良方。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

精读《Harness design for long-running application development》：真正拉开差距的，不是模型本身，而是你怎么给它harness

2048 AI社区

从零开始构建AI Agent评估体系：12种LangSmith评估方法详解

AI Agent 的评估需要全面考虑其完整的生命周期，从开发阶段到生产部署。评估过程应当涵盖多个关键维度：最终输出的事实准确性和实用价值、推理过程中工具选择的合理性和路径效率、结构化响应生成能力（如 JSON 格式）、多轮对话的上下文维持能力，以及在真实用户流量下的持续性能表现和错误监控能力。为了有效监控和评估 Agent 生命周期的各个组件，LangSmith 作为最具影响力和广泛应用的工具平台

2048 AI社区

LLM开发者必备：掌握21种分块策略让RAG应用性能翻倍

检索增强生成（Retrieval-Augmented Generation, RAG）是当前AI工程师在实际应用中面临的重要技术挑战之一。从理论角度来看，RAG的工作原理相对直观：从自定义数据源中检索相关上下文，然后基于这些上下文让大语言模型生成对应的回答。在实际部署过程中，开发者往往需要处理大量格式混乱的异构数据，并经历反复的系统调优过程，包括分块策略的优化、嵌入模型的选择、检索器的配置、排序器