从“算得多”到“算得巧”，RedundancyLens：重塑多模态大模型的效率边界

该论文由合合信息团队参与完成，聚焦多模态大模型推理阶段的效率优化问题。研究发现，在主流的 decoder-only 架构中，视觉 Token 在多层处理过程中存在明显的结构性冗余，这使模型在高分辨率输入和长序列场景下面临较大的算力压力。为此，研究团队提出了RedundancyLens，可在推理阶段动态识别并削减视觉 Token 的冗余计算，在无需额外训练的前提下显著降低计算开销，同时保持模型性能提

大靠山

333人浏览 · 2026-04-01 16:25:06

大靠山 · 2026-04-01 16:25:06 发布

论文简介

合合信息是一家中国领先的人工智能产品公司，长期关注多模态大模型与文本智能技术在实际场景中的应用，相关能力已在多个 C 端与 B 端业务中落地。在这项工作中体现了其对模型效率优化和实际部署问题的持续关注。

研究背景与现有不足

多模态大语言模型（MLLM）在计算机视觉和自然语言处理交叉领域快速发展，但其架构设计面临性能与效率的关键权衡。当前主流架构包括decoder-only 架构和交叉注意力架构：decoder-only 架构如LLaVA将图像token与文本token拼接，由LLM统一处理，自注意力和FFN操作占计算主导，视觉token数量多导致效率低下；交叉注意力架构如Flamingo通过交叉注意力层集成视觉信息，跳过LLM对视觉token的处理，效率高但整体性能较低。现有工作如NVLM比较显示，decoder-only 架构性能更优，但处理高分辨率图像时计算开销大，限制实际应用。视觉token压缩方法如FastV通过减少token数量加速，但剩余 token 仍然需要较高的计算开销，而本文从减少每个视觉token计算的角度出发，填补了研究空白。核心问题在于：是否在视觉token处理中存在冗余？如何无训练地分析和利用这种冗余？这为探索高效MLLM架构提供了动机。

创新点一：Probe-Activated Dynamic FFN

Probe-Activated Dynamic FFN 旨在减少视觉token在前馈网络中的计算，通过动态选择FFN参数子集，实现免训练加速。其原理受MoE启发，但无需训练路由器，而是通过探针采样策略激活参数：从视觉token中随机采样一小部分子集，计算隐藏表示并取绝对值均值，选择top-K个激活值对应的参数索引，仅激活这些参数处理所有视觉token。

具体实现中，采样子集用于估计隐藏表示的激活模式，从而确定哪些FFN参数对当前输入最重要，避免了全参数计算。与已有工作如MoE相比，该方法无需额外训练，直接在推理时应用，降低了部署成本；同时，它仅针对视觉token，文本token保持原样，确保了语言能力的完整性。

优点包括计算量大幅减少、兼容现有MLLM变体（如带门控机制的FFN），但可能因采样不确定性引入波动，通过设置采样比例和激活参数数来平衡效率与准确性。

创新点二：Hollow Attention

Hollow Attention 是一种自定义稀疏注意力模式，旨在减少视觉token在自注意力中的计算，同时保留视觉与文本token间的注意力关系。其原理基于稀疏注意力，将视觉token间的全局注意力替换为局部注意力：每个视觉token仅关注前R_A个视觉token和所有文本token，而文本token仍可关注所有token，从而显著降低注意力开销，因为视觉token通常远多于文本token。动机在于视觉token序列长，全局注意力计算复杂度高，而局部注意力能捕捉空间相关性，减少冗余交互；同时，保持视觉-文本注意力确保多模态信息融合不受影响。

与标准自注意力相比，Hollow Attention 减少了视觉token间的长距离依赖，但实验表明这对性能影响小，说明视觉token处理中存在冗余。实现中，注意力范围R_A设为256，对应单子图像token数，平衡了局部性与计算效率。优点包括计算复杂度降低、易于集成到现有MLLM，但可能损失部分全局视觉上下文，通过实验验证了在大多数任务中性能保持。下图2(b)展示了注意力模式的变化，直观比较了全局与局部注意力，突显了计算缩减的机制。

创新点三：Layer Ranking Algorithm

Layer Ranking Algorithm 用于确定哪些层最适合应用计算缩减，通过排序层优先级，以最大化冗余利用而不损害性能。原理基于贪心搜索算法：构建紧凑验证集，逐步评估每个层应用缩减后的模型性能，选择性能下降最小的层进行排序，形成层排名列表；当需缩减特定层数时，选择排名最高的层。动机在于不同层对视觉token处理的冗余程度不同，全层组合评估计算不可行，因此需高效排序策略。

算法细节包括惩罚机制：如果缩减后性能下降，差异乘以惩罚系数α>1，鼓励优先选择性能稳定的层；实验中发现后几层冗余更高，因此采用混合策略，后L_p层预分配高排名，剩余层通过搜索排序，减少评估次数。与随机或位置策略相比，该算法更准确地识别冗余层，但依赖验证集质量，可能因小样本引入偏差。

优点包括免训练、可适配不同MLLM，但计算成本较高，需数百次评估，未来可优化搜索效率或探索其他特征。

实验与结果分析

实验在多个主流MLLM上进行，包括InternVL2-8B、Qwen2-VL-7B等，评估八个基准测试如OCRBench、DocVQA等。冗余分析结果显示：在约50%层中应用缩减，模型性能保持甚至提升，如图3所示，性能曲线在缩减层比例增加时先稳定后下降，FFN缩减比注意力缩减下降更陡。

对比视觉token与全token缩减：图4显示仅缩减视觉token性能稳定，而缩减全部token（包括文本）导致性能急剧下降，证实冗余特定于视觉token。与其他免训练加速方法比较：如表1，RedundancyLens在FLOPs减少约30%时，性能达到或优于FastV和VTW，且在OCRBench等文本丰富场景表现更佳，因Token压缩上限低。

正交性验证：结合FastV，FLOPs减少约50%时，性能显著超过单用FastV，表明token数量缩减与token计算缩减互补。消融研究：图6显示，激活参数比例或注意力范围增加时，可缩减更多层而不影响性能，平衡效率与效果；图7比较层排序策略，混合策略优于纯位置或搜索策略。这些结果证实了视觉token处理中的结构化冗余，为MLLM架构优化提供了实证基础。

产品应用

在企业应用层面，该方法为多模态模型的大规模落地提供了更现实的路径。在 ToB 侧，如企业级文档扫描与识别、合同与票据 OCR、表单信息抽取、智能审核与质检系统等场景中，模型往往需要在高并发、有限算力或本地化部署条件下稳定运行。通过在推理阶段动态减少每个视觉信息的计算量，系统可以在保持高准确率的同时显著降低算力与能耗成本，从而提升整体服务效率。

在 ToC 侧，该方法同样适用于手机端拍照识别、即时翻译、智能搜索、辅助阅读等应用，使模型在移动设备或实时交互场景中运行得更快、更省电、响应更流畅。整体而言，这一技术让多模态能力不再局限于高算力环境，而是真正具备了在不同产品形态和终端条件下广泛应用的可行性。

总结与展望

本文通过RedundancyLens框架系统分析了解码器-仅MLLM中视觉token处理的冗余，揭示了结构化和聚类化的冗余模式，为高效架构设计提供了新见解。核心贡献包括提出免训练的分析方法、证明冗余存在性，并引入正交于现有token压缩的加速视角，实验验证了性能保持与效率提升。局限性在于层排序算法依赖验证集和贪心搜索，可能未找到最优层组合，且计算成本较高；未来工作可优化算法、探索更鲁棒的特征，或结合其他加速技术。总体而言，该研究推动了MLLM在性能与效率平衡方面的进展，鼓励从token和计算双维度考虑模型优化，具有实际应用潜力。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

在这里插入图片描述

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

2026年最新AI大模型学习路线，零基础入门到精通（非常详细）收藏这一篇就够了！

2048 AI社区

UXbot 是什么？一句指令生成完整应用的 AI 工具

UXbot 是一款 AI 驱动的无代码（No-Code）应用构建工具，由人工智能技术提供核心能力。其核心功能是：用户只需通过自然语言描述产品需求，系统即可自动生成完整的多页面应用——包含产品逻辑图、用户旅程规划、高保真可交互界面，以及可直接交付给研发团队使用的多种格式原生代码。无代码意味着：整个过程中，用户无需编写任何一行代码。AI 负责将产品描述翻译成结构化的应用架构，用户只需确认和调整生成结果