【论文阅读 || 2025 || AAAI || MambaYOLO:一种基于状态空间模型的简单目标检测基线】

在深度学习技术飞速发展的推动下，YOLO系列为实时目标检测器树立了新标杆。此外，基于Transformer的架构已成为该领域最强大的解决方案，通过大幅扩展模型的感受野实现了显著性能提升。然而这种改进也带来了代价——自注意力机制的二次复杂度增加了模型的计算负担。为解决这一问题，论文提出了一种简单却有效的基线方法Mamba YOLO。结构化状态空间序列模型S4和 Mamba，其根植于 SSM ，两者均

m0_75277695

800人浏览 · 2026-01-05 17:51:02

m0_75277695 · 2026-01-05 17:51:02 发布

【论文阅读 || 2025 || AAAI || MambaYOLO:一种基于状态空间模型的简单目标检测基线】

1 摘要&相关工作&贡献
2 方法
3 实验
4 结论

1 摘要&相关工作&贡献

1.1 摘要

1.2 相关工作

实时目标检测器YOLO的早期性能提升主要得益于其骨干网络的改进，这推动了DarkNet的广泛应用YOLOv7提出了 EELAN结构，在保持原有模型特性的同时提升了性能。YOLO8（将前几代YOLO的特点结合起来，采用 CSPDarknet53 与 2 阶段 FPN（C2f）结构相结合，通过更丰富的梯度流实现轻量级且适应不同场景，同时兼顾精度。最近，Gold YOLO引入了一种名为Gather-and-Distribute（GD）的新机制，机制通过自注意力操作解决传统特征金字塔网络和Rep PAN的信息融合问题，并成功实现了SOTA 。
端到端目标检测器DETR首次将Transformer引入目标检测领域，采用Transformer编码器-解码器架构，绕过了锚点生成和非极大值抑制等传统手工设计组件，将检测视为直接的集成预测问题。可变形DETR（提出可变形注意力机制，作为Transformer注意力的变体，用于在参考位置周围采样稀疏关键点集，解决了DETR处理高分辨率特征图的局限性。DINO整合了混合查询选择策略、可变形注意力，并通过注入噪声进行训练，经查询优化后性能提升。RT-DETR提出混合编码器，通过解耦尺度内交互与跨尺度融合实现高效的多尺度特征处理。然而，DETRs的优异性能高度依赖于大规模数据集的预训练操作，而由于训练收敛性、计算成本以及小目标检测等挑战，YOLOs在小规模建模领域仍以准确性和速度SOTA 。
视觉状态空间模型基于 SSM的研究，在输入规模上展现出线性复杂度，并解决了Transformer在建模状态空间长序列时的计算效率问题。在广义视觉骨干领域，Vision Mamba提出了基于选择性SSM 的纯视觉骨干模型，标志着Mamba首次被引入视觉领域。VMamba引入了Cross-Scan模块，使模型能够对二维图像进行选择性扫描，这种扫描方式增强了视觉处理能力，并在图像分类任务中展现出优越性。LocalMamba专注于视觉空间模型的窗口扫描策略，优化视觉信息以捕捉局部依赖关系，并引入动态扫描方法为不同层寻找最优选择。受VMamba在视觉任务领域取得的显著成果启发，本文首次提出Mamba YOLO——一种新型 SSM 模型，与传统基于 SSM 的视觉骨干不同，它无需在大规模数据集上进行预训练。该方法旨在考虑全局感知域，同时展示其在目标检测中的潜力。

1.3 贡献

提出的基于 SSM 的MambaYOLO具有简单高效的结构，内存复杂度为线性，且无需在大规模数据集上进行预训练，为目标检测领域的YOLO（目标检测）设定了新的基准。
提出ODSSBlock来弥补 SSM 的局部建模能力。通过重新设计 MLP 层，我们引入了RGBlock，该模块融合了门控聚合、有效卷积和残差连接的思想，能有效捕捉局部依赖关系，从而提升模型鲁棒性。
设计了一套MambaYOLO模型（Tiny/Base/Large），支持不同尺度的任务部署。如图1所示，MSCOCO 实验表明，与现有最先进方法相比，我们的MambaYOLO实现了显著的性能提升。

2 方法

2.1前言

结构化状态空间序列模型S4和 Mamba，其根植于 SSM ，两者均源自一个连续系统，该系统通过隐式潜在中间状态h（t）∈ R 将单变量序列x（t）∈ R 映射到输出序列y（t）。该设计不仅建立了输入与输出之间的关系，还封装了时间动态。该系统可数学定义如下：
$h^{\prime}(t)=\mathbf{A}h(t)+\mathbf{B}x(t) \tag{1}$

$y(t)=\mathbf{C}h(t) \tag{2}$
在公式(1)中，A ∈ R 表示状态转移矩阵，它控制隐藏状态随时间的演变；而B ∈ R 则表示输入空间
与隐藏状态相关的权重矩阵。此外，C ∈ R 是观测矩阵，它将隐藏中间状态映射到输出。Mamba通过采
用固定离散化规则，将转换参数A和B为它们的离散对应物A和B，从而更好地将该连续系统整合到深度学习
架构中。为此目的常用的一种离散化方法是零阶保持（ZOH）。离散化版本可定义如下：
$\overline{\mathbf{A}}=\operatorname{exp}(\mathbf{\Delta A}) \tag{3}$

$\overline{\mathbf{B}}=(\mathbf{\Delta A})^{-1}(\operatorname{exp}(\mathbf{\Delta A})-\mathbf{I})\mathbf{\Delta B} \tag{4}$
在公式(4)中，∆表示一个时间尺度参数，用于调整模型的时间分辨率，∆A和∆B分别表示给定时间区间内连续参数的离散时间对应量。此处I表示单位矩阵。经过变换后，模型通过线性递归形式进行计算，其定义如
下：
$h^{\prime}(t)=\overline{\mathbf{A}}h_{t-1}+\overline{\mathbf{B}}x_{t} \tag{5}$

$y_{t}=\mathbf{C}h_{t} \tag{6}$
整个序列变换也可表示为卷积形式，其定义如下：
$\overline{\mathbf{K}}=(\mathbf{C}\overline{\mathbf{B}},\mathbf{C}\overline{\mathbf{A}}\overline{\mathbf{B}},...,\mathbf{C}\overline{\mathbf{A}}^{L-1}\overline{\mathbf{B}}) \tag{7}$

$y=x*\overline{\mathbf{K}} \tag{8}$

其中，K ∈ RL表示结构化卷积核，L表示输入序列的长度。在本文提出的设计中，该模型采用卷积形式进行并行训练，并利用线性递归公式实现高效的自回归推理。

2.2 综述

在这里插入图片描述
图2展示了MambaYOLO的架构概览。目标检测模型由ODMamba主干和颈部两部分组成ODMamba包含简单茎干和下采样模块。在颈部部分，我们采用 PAFPN的设计方案，用ODSSBlock模块替代C2f，以捕捉更丰富的梯度信息流。主干首先通过Stem模块进行下采样，生成分辨率HxW的二维特征图。因此，所有模型均由ODSSBlock模块后接VisionClueMerge模块构成，用于进一步下采样。在颈部区域，我们采用 PAFPN 的设计方案，用ODSSBlock替代C2f，其中Conv模块专门负责下采样。

2.3 simple stem

现代视觉Transformer（ViTs）通常采用分块图像作为初始模块，将图像分割为互不重叠的区域。
这种分割过程通过卷积运算实现，其卷积核尺寸为4×4，步长为4。然而，近期研究（如EfficientFormerV2的
Li等人2023年研究）表明，该方法可能限制ViTs的优化能力，影响整体性能。为在性能与效率之间取得平
衡，论文提出了一种精简的主干层设计。该方案摒弃了非重叠图像块，转而采用两个步长为2、卷积核尺寸为3的卷积操作。

2.4 Vision Clue Merge

视觉线索融合虽然卷积神经网络和视觉图卷积器结构通常采用卷积进行下采样，发现这种方法会干
扰SS2D在不同信息流阶段的选择性操作。为解决这一问题，VMamba通过1 × 1卷积对二维特征图进行分割和降维。研究结果表明，保留更多视觉线索以 SSM 模型训练效果更佳。与传统维度减半方法不同，论文通过以下方式优化该过程：

消除规范。
分割维度映射。
向通道维度添加冗余特征图。
采用4 ×压缩逐点卷积进行下采样。
与使用步长为2的3 × 3卷积不同，论文的方法保留了由SS2D从上一层选择的特征图。

2.5 ODSSBlock

在这里插入图片描述

如图3所示，ODSSBlock是Mamba YOLO的核心模块，在输入阶段，它通过一个ConvModule，使网络能够学习更深层、更丰富的特征表示。假设输入特征Z的形状为R ，我们有：
$Z^{l-2}=\sigma\left(BatchNorm\left(ConvModule(Z^{l-3})\right)\right) \tag{9}$
其中σ表示激活函数（非线性SiLU）。ODSSBlock的层归一化与残差链接设计借鉴了Transformer Blocks架构风格，使得模型在深度堆叠存在时仍能高效运行并进行训练。
$Z^{l-1}=SS2D\left(LayerNorm(Z^{l-2})\right)+Z^{l-2} \tag{10}$

$Z^{l}=RGBlock\left(LayerNorm(Z^{l-1})\right)+Z^{l-1} \tag{11}$

ODSSBlock可解耦为两个独立的功能组件SS2D（·）和RGBlock（·），分别用于全局空间信息传播和信道信息传播，其中Z 表示SS2D后的中间状态。SS2D算法包含扫描扩展、S6模块和扫描合并三个核心
步骤，其主要流程如图3所示。扫描扩展操作将输入图像分解为多个子图像，每个子图像对应特定方向。从
对角线视角观察时，该操作会沿四个对称方向进行扫描：自上而下、自下而上、左右方向以及从右向左的
字元方向。这种布局不仅全面覆盖了输入图像的所有区域，还通过系统化方向变换为后续特征提取提供了
丰富的多维信息基础，从而显著提升了图像特征多维捕捉的效率与全面性。SS2D中的扫描合并操作将生成
的序列作为输入传递至S6模块并融合来自不同方向的序列，从而将特征提取为全局特征。

2.6 RG Block

RG Block原始 MLP 仍然是最广泛采用的，VMamba架构中的 MLP 也遵循Transformer设计，通过对输入序列进行非线性变换来增强模型的表达能力。近期研究Gated MLP ，Dauphin等人2017；Rajagopal和Nirmala
2021）表明其在自然语言处理中表现强劲，我们发现门控机制在视觉领域同样具有潜力。图3中，本文提出
残差门控块的简单设计旨在以更低计算成本提升模型性能，RG Block通过从输入 fIA和 fIB分别生成两个分支
来保留全局与局部信息，T（·）表示线性层。
$\mathcal{R}_{\text{local}}^{l-1}=\mathcal{T}_{\text{local}}^{l-1}(f_{A}^{\prime}) \tag{12}$

$\mathcal{R}_{\text{global}}^{l-1}=\mathcal{T}_{\text{global}}^{l-1}(f_{B}^{\prime}) \tag{13}$

global 深度可分离卷积被用作Rl- 分支上的位置编码模块，通过残差拼接在训练期间更高效地反向传播梯度，这具有较低的计算成本，并通过保留和利用图像的空间结构信息显著提升性能。RG Block采用非线性GeLU作为激活函数来控制每个层级的信息流动。
$\mathcal{Y}(x)=\Phi(DWConv(x)\oplus x) \tag{14}$
通过Y（x）传递的局部信息与Rl- 的全局信息相乘，全局特征通过线性层进行细化以融合局部通道的
信息，并允许残差连接与 fIA的原始输入及隐藏层特征相加。RG Block在仅产生轻微计算成本增加的情况下
捕获了更多全局与局部特征，其输出特征定义如下：
$\mathcal{R}_{\text{fusion}}^{l}=\mathcal{R}_{\text{global}}^{l-1}\odot\mathcal{Y}(\mathcal{R}_{\text{local}}^{l-1}) \tag{15}$
$f_{RG}=\mathcal{T}_{\text{fusion}}^{l}(\mathcal{R}_{\text{fusion}}^{l})\oplus f_{A}^{\prime} \tag{16}$
其中 Φ 表示激活函数（非线性 GELU）。本文中，RGBlock的门控机制通过整合卷积操作来保留空间信
息，同时使模型对图像中的细粒度特征更加敏感。与传统 MLP 相比，RGBlock将全局依赖关系和全局特征
传递至每个像素，以捕捉相邻特征间的依赖关系，从而丰富上下文信息，进一步提升模型的表达能力。

3 实验

3.1 对比实验

在这里插入图片描述

与现有技术对比表1展示了 MSCOCO val的实验结果，表明论文提出的方法在浮点运算量、参数数量、精度
与GPU延迟之间实现了最佳平衡。具体而言，相较于ppyoloe-S/YOLO-MS-XS等高性能微型轻量模型，Mamba YOLO-T的平均精度分别提升了1.1%/1.5%，GPU推理延迟则缩短了0.9ms/0.2ms。当与精度相当的基线模型YOLOv8-S对比时，Mamba YOLO-T不仅将参数量减少了48%、浮点运算量降低了53%，还使GPU推理延迟降低了0.4ms。与参数量和浮点运算量相近的Gold-YOLO-M相比，Mamba YOLO-B的平均精度（AP）提升了3.7%。即便与精度相当的ppyoloe-M相比，Mamba YOLOB 仍能将参数量减少18%、浮点运算量降低9%，同时将GPU推理延迟缩短1.8毫秒。对于大型模型，Mamba YOLO-L在所有高级目标检测器中均展现出更优或相当的性能。相较于表现最佳的Gold-YOLO-L，Mamba YOLO-L在参数量减少0.9%的同时，平均精度提升了0.3%。如表格所示，采用零样本训练方法的Mamba YOLO-T表现优于其他所有训练方法。

3.2 消融实验

在这里插入图片描述独立地检查 ODSSBlock 中的每个模块，并在没有 Clue Merge 的情况下使用传统卷积进行下采样，以评估Clue Merge对精度的影响。Mamba YOLO 在 MSCOCO 数据集上进行测试，以开展消融实验，测试模型为 Mamba YOLO-T。结果表 2 显示，Clue Merge为 SSM 保留了更多的视觉线索，也支持了 ODSSBlock 结构确实是最优的这一观点。
在这里插入图片描述
RG Block结构消融研究RG Block通过逐像素提取全局依赖关系和全局特征，实现对局部依赖关系的捕捉。该模块采用多分支结构建模通道维度，有效解决了SSM 序列建模在感知域不足和图像定位能力弱方面的局限性。在RG Block的设计细节方面，我们还考虑了
三种变体：

卷积 MLP ，该方法在原始 MLP 基础上添加了DW Conv。
残差卷积 MLP（Res-Convolutional MLP）通过将DW Conv以残差拼接方式添加到原始 MLP 中实现。
门控 MLP（Gated MLP）是一种基于门控机制设计的 MLP 变体。

图6展示了这些变体，表3则通过 MSCOCO 数据集验证了原始 MLP 、RG Block及其各变体在 MLP 上的分析有效性，测试模型采用Mamba YOLO-T。我们发现单纯引入卷积层并未显著提升性能，而图6所示的门控
MLP 变体则不同——其输出由两个元素乘法的线性投影构成，其中一个包含残差连接的DWConv和门控激活函数。这种设计使模型能够通过层级结构传递关键特征，从而有效提升模型的准确性和鲁棒性。实验表明，在处理复杂图像任务时，引入卷积层的性能提升与门控聚合机制密切相关，前提是二者需在残差连接的框架下协同应用

3.3 变体消融

在这里插入图片描述
论文探索了主干网络中ODSSBlock重复次数的四种不同配置：[9,3,3,3]会增加额外计算开销，但并未带来相应的精度提升；[3,9,3,3]、[3,3,9,3]以及[3,3,3,9]实际上因ODSSBlock过度重复而产生冗余。实验表明[3,6,6,3]是MambaYOLO中更合理的配置。在颈部区域，虽然移除ODSSBlock可实现更轻量化的模型，但这将不可避免地降低模型精度，而颈部区域的ODSSBlock能提供丰富的梯度流和特征融合。选择输出特征图为{P2，P3，P4，P5}该变体显著提高了精度，但不可避免地大幅增加了GFLOPs。Mamba YOLO最终选择了Blocks= [3,6,6,3]，特征图={P3，P4，P5}，并在颈部区域使用了ODSSBlock。这种配置在精度与复杂度之间取得了更好的平衡，更适用于高效执行实例分割任务。结果如表4所示。

4 结论

本文提出了一种基于 SSM 并结合YOLO扩展的检测器设计。其训练过程显著简化，无需在大规模数据集上
进行预训练。我们重新分析了传统 MLP 的局限性，并提出了RG模块——该模块通过门控机制和深度卷积残
差连接设计，使模型能够在层级结构中传递关键特征。我们的目标是建立YOLO的新基准，证明MambaYOLO具有高度竞争力。本研究首次将Mamba架构应用于实时目标检测任务，同时希望为该领域研究者带来新思路。