DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing 学习笔记
本文提出视差引导的多光谱曼巴(DMM)框架用于多光谱目标检测。针对模态间差异和RGB模态内光照变化等挑战,DMM包含三个关键模块:视差引导的跨模态融合曼巴(DCFM)利用Mamba选择性扫描机制高效融合RGB与红外特征;多尺度目标感知注意力(MTA)通过多尺度卷积抑制RGB模态的噪声干扰;目标先验感知(TPA)辅助任务引入额外监督优化MTA模块。实验表明,DMM在DroneVehicle和VEDA
摘要
背景
多光谱导向目标检测由于模态间和模态内差异面临挑战。
研究现状
最近的研究依靠基于Transformer的模型来解决这些问题并实现跨模态融合检测。
然而transformer的二次计算复杂度限制了它们的性能。收到Mamba在长序列任务中的高效和低复杂度启发
提出新方法
本文提出了视差引导的多光谱曼巴(DMM),一个多光谱导向的目标检测框架,由视差引导的多模态融合曼巴(DCFM)模块,一个多尺度目标感知注意力(MTA)模块和一个目标先验感知(TPA)辅助任务组成。
DCFM模块利用模态之间的视差信息自适应地合并RGB和红外图像的特征,减轻模态间的冲突
MTA模块旨在通过关注RGB模态中的相关目标区域来增强特征表示,解决模态内的变化。
TPA副主任吴利用单模态标签来直掉MTA模块的优化,确保它专注于目标以及本地上下文。
贡献
对DroneVehicle和VEDAI数据集的广泛实验证明了方法的有效性,该方法优于SoTA,同时保持着计算效率
相关工作
目标检测
背景
目标检测是遥感领域的一项基础任务,在城市规划、交通监视、救灾和军事侦察等民用和军事领域都有着广泛的作用,然而传统的目标检测方法往往难以应对遥感图像带来的独特挑战。
挑战
例如物体的比例、方向和密度等高度可变性。为了应对这些挑战,已经开发了定向目标检测,其中包括了物体角度的检测。这种方法显著提高了在复杂遥感环境中检测旋转、不规则和密集堆积物体的准确性和精密度。
因此定向目标检测引起了相当多的研究和关注。然而这些研究主要是针对可见光(RGB)图像设计的,由于低光照和复杂的天气情况,这些图片经常收到信息稀疏和显著噪声干扰的影响。
多光谱检测
背景
随着光学传感器技术的进步,红外图像已经被广泛采用为应对这些挑战的附加模式,因为它们可以稳定地反应物体的热信息而不收到光照和天气的影响,尽管红外图像受照明和天气条件变化较小,但他们提供有关物体的细节较少。因此将RGB和IR图像结合起来进行目标检测是很直观的,这种技术被称为多光谱物体检测。
挑战
![![[Pasted image 20251013181145.png]]](https://i-blog.csdnimg.cn/direct/d5e5fd965cb9488d87361d6f921b9a82.png)
基于之前的研究和观察,遥感图像的多光谱目标检测面临的挑战可分为两种类型
一种是由于模态特征、拍摄角度、校准误差和后处理引起的模态间差异,图1(a)提供了模态差异的例子。
另一个挑战是RGB图像存在巨大的模态内差异,目标图像质量在不同照明条件下会发生巨大的变化,在图1(b)中,具体来说,夜晚的人造灯光,如路灯、车辆前等和霓虹灯,可能会导致误导信息。此外,极低的光照和曝光不足引起的严重噪点和阴影会干扰特征提取,导致RGB模态中包含大量不相关的信息,从而阻碍后续步骤的最佳融合。
研究现状
最近的研究应用CNN和Transformer来应对巨变挑战。TSFADet设计了一种基于CNN的对齐框架来解决配对图像模态的弱对齐问题,然而因为固定的感受野,CNN方法在学习全局上下文信息上表现困难,这对于检测遥感图像中的众多小目标至关重要。
虽然Transformer在捕获长距离依赖和全局信息上有优越性,但是他们的昂贵的计算负担限制了他们在高分辨率遥感图像的应用。
因此提出了结合CNN和Transformer的混合方法,例如C2C^2C2Former使用CNN来踢去图像特征再通过基于Transformer架构的模态间注意力模块来获得对齐与互补的特征,解决了跨模态融合不准确的问题。
但这些方法依然无法避免Transformer的二次计算复杂度,且为了减少计算负担,这些方法经常在计算全局特征时将特征投射到低纬度,这不可避免的降低了融合效率。
此外现有方法尚未充分探明RGB模态之间的差异,并将其与模态间差异相结合,而这对有效地多光谱目标检测至关重要
提出新方法
为解决以上问题,提出了DMM这一视差引导的多光谱目标检测框架。其中包括一个视差引导的跨模态融合曼巴模块(DCFM)用于解决模态间差异,和一个多尺度目标感知注意力模块(MTA)用于处理可见光魔胎中的模态内差异。得益于Mamba的选择扫描机制和硬件友好的计算策略,DCFM模块在不牺牲计算效率的情况下对单模态信息和模态差异信息的全局交互意识进行建模。MTA采用多尺度卷积窗口在可见光特征中提取目标和局部背景信息,旨在抑制模态内的无效干扰。
此外为指导MTA学习有效信息,设计了一种TPA辅助任务,通过伪标签或手动标注引入额外的监督信息,是用预训练辅助检测头来约束MTA的优化过程,从而获得更有利于后续融合的RGB特征
贡献
提出了一种新的多光谱导向的目标检测模块DMM,基于曼巴架构,借助曼巴的高效捕捉长距离的依赖的能力,DMM的DCFM模块在模态差异信息引导下有效融合跨模态特征,DMM是首个将Mamba成功应用于面向多光谱的目标检测的案例。
开发了MTA模块伴随着辅助任务TPA来减少RGB模态内部的特征差距,TPA引入了额外的监督信息,使得MTA专注于更多目标出现的区域
证明了模型方法的高效性通过两个广泛使用的遥感数据集DroneVehicle和VEDAI 进行了大量的实验。方法显著优于现有的SOTA方法,为面向多光谱的目标检测建立了新的基准。
相关工作
目标检测
为了将通用目标检测方法拓展到旋转场景,Yang等将角度预测建模为分类问题,旋转RPN和Rol Transformer以及定向R-CNN提出了各种策略来提高经典锚点目标检测器的锚点生成质量。受ATSS的启发,DAL、SASM、GGHL和定向重复点等方法从不同角度探讨了标签分配问题对定向目标检测性能的影响。为平衡精度与速度,已提出了基于单级的精细检测器;
不足
仅依赖RGB模式,在弱光条件下性能受限
多光谱目标检测
在目标检测中引入红外模态可以提供针对照明变化的鲁棒性。大量实验专注于如何有效融合可见光和红外模态,Halfway Fusion证明特征级融合效果最好,AR-CNN通过设计区域特征对齐模块来捕获位置偏移并自适应地对齐两种模态的区域特征,以解决多模态融合的若对齐差异。TSFADet提出了一种对齐模块来预测两种模态之间的偏差并校准特征图
C2FormerC^2FormerC2Former设计了一个模态间交叉注意力模块来缓解模态校准和融合的不准确性,并设计了一个自适应特征采样模块以平衡全局注意力的计算成本,基于Transformer实现了模块,并采取多种策略以牺牲精度为代价减少计算负载
这是我们考虑是否有可能在不影响计算效率的情况下获得卓越的检测结果
Mamba
曼巴是状态空间模型(SSM)的增强版,引入了选择机制和硬件感知算法,能够基于输入序列对SSM进行参数化,以高效处理离散模态的长序列。曼巴展现出了在有效处理长序列建模方面的巨大潜力。Mamba通过序列长度的线性缩放并有效对远程依赖关系进行建模,为Transformers等基于注意力的模型提供了另一种选择。Vison Mamba和Vmamba等努力通过双向或多向扫描的方法拓展了Mamba处理视觉数据的能力。
RSMamba采用动态多路径激活机制增强了非因果数据的建模,并在遥感图像分类方面得到了优越的性能。Pan–Mamba利用Mamba模型在全局信息建模中的效率进行锐化,结合通道交换和跨模态Mamba分量实现融合结果。Samba采用Mamba设计的独特编码器结构,从高分辨率遥感图像中提取语义信息。
预先准备
![![[Pasted image 20251013211636.png]]](https://i-blog.csdnimg.cn/direct/f1768413b75f42e1b43312a870ef2683.png)
通过卷积将输入的双模态特征投影到高维空间,并使用VSS块来特征提取,每一个VSS块都与一个下采样层级联,以减小特征图大小。
上游和下游的VSS模块生成的不同尺寸的特征分别被输入到MTA模块和DCFM模块中
输出的MTA模块被送到TPA头,以评估MTA增强功能的质量
DCFM模块的输出被引导到后续的检测头。
最右边展示了VSS模块以及其中的SS2D机制
方法
DCFM 视差引导的跨模态融合曼巴
特征融合是多模态模型的核心,现有的方法通过Transformer的动态建模能力解决模态间差异。然而昂贵的计算成本需要考虑。DCFM模块基于Mamba实现全局注意力,同时可避免二次计算开销,DCFM如图所示![![[Pasted image 20251014104247.png]]](https://i-blog.csdnimg.cn/direct/bbded123ccf34149a398a8a42c99f5c4.png)
对于输入特征Featrgb,Featir∈RN×C×H×WFeat_{rgb},Feat_{ir} \in \mathbb{R}^{N \times C \times H \times W}Featrgb,Featir∈RN×C×H×W
先通过归一化加速收敛,计算模态间差异得到FeatdiffFeat_{diff}Featdiff
然后将它们全部投影到统一的隐藏空间,随后使用深度可分离卷积和SiLU激活函数作用于三个特征,再通过DSSM进一步处理,该模块能从另一种模态中提供互补信息,并抑制冗余信息。
随后将输出的RGB和IR特征与CAB处理的原始特征相乘,最后将二者相加得到高质量融合特征。
CAB 通道注意力模块
状态空间模型擅长解决远程依赖关系,但在通道间关系进行建模存在局限,本文提出CAB计算归一化原始特征的通道注意力,自适应学习模态内通道关系以增强单一模态的特征表示。
对于输入特征FiF_iFi
Favg=AvgPool(SiLU(Fi))F_{avg}=AvgPool(SiLU(F_i))Favg=AvgPool(SiLU(Fi))
Fmax=MaxPool(SiLU(Fi))F_{max}=MaxPool(SiLU(F_i))Fmax=MaxPool(SiLU(Fi))
W=Sigmoid(Conv1×1Favg+Conv1×1Fmax)W=Sigmoid(Conv_{1 \times 1}F_{avg}+Conv_{1 \times 1}F_{max})W=Sigmoid(Conv1×1Favg+Conv1×1Fmax)
Fout=W⋅Fi+FiF_{out}=W \cdot F_i+F_iFout=W⋅Fi+Fi
DSSM 视差引导选择性扫描模块
Mamba架构中独特的选择性扫描能使输入数据有选择的调整参数,利用这种上下文感知功能设计出了DSSM,DSMM处理三个输入frgb,fir,fd∈RN×D×H×Wf_{rgb},f_{ir},f_d \in \mathbb{R}^{N \times D \times H \times W}frgb,fir,fd∈RN×D×H×W
对特征进行展平后,将fd和frgb、firf_d和f_{rgb}、f_{ir}fd和frgb、fir进行拼接
得到frgb−df_{rgb-d}frgb−d代表RGB特征和视差特征的融合序列 四行中的上两行
得到fir−df_{ir-d}fir−d代表红外特征和视差特征的融合序列 四行中的下两行
由于空间信息有双向关联性
DSSM引入双向扫描覆盖更全面的空间上下文
具体地说,通过反向处理得到两个反向序列
fˉrgb−d\bar{f}_{rgb-d}fˉrgb−d、fˉir−d\bar{f}_{ir-d}fˉir−d
将这四个序列通过Mamba的选择性扫描机制得到四个输出序列
输出序列的扫描结果逆反向并于原序列相加
yrgb−d=frgb−d′+Reverse(fˉrgb−d′)y_{rgb-d}=f'_{rgb-d}+Reverse(\bar{f}'_{rgb-d})yrgb−d=frgb−d′+Reverse(fˉrgb−d′)
yir−d=fir−d′+Reverse(fˉir−d′)y_{ir-d}=f'_{ir-d}+Reverse(\bar{f}'_{ir-d})yir−d=fir−d′+Reverse(fˉir−d′)
只保留yrgb−d和yir−dy_{rgb-d}和y_{ir-d}yrgb−d和yir−d的前半部分模态特定特征,而后半部分视差差异特征已经融入前半部分,无需特意保留
最终得到yrgb−d和yir−d∈RN×D×H×Wy_{rgb-d}和y_{ir-d}\in \mathbb{R}^{N \times D \times H \times W}yrgb−d和yir−d∈RN×D×H×W
MTA 多尺度目标感知注意力
动机
DCFM继承了多模态信息,但光照等模态的变化会在RGB特征引入干扰和冗余,这会阻碍模块有效区分目标和背景噪声的能力。![![[Pasted image 20251014110839.png]]](https://i-blog.csdnimg.cn/direct/2021752bebb44a588948768bc8554ffe.png)
方法
提出了MTA,MTA通过计算多尺度空间自注意力,自适应聚焦RGB模态的目标区域,为后续融合提供更高的RGB特征
如图所示,对于输入的特征FeatrgbFeat_{rgb}Featrgb应用Conv-BN-GELU的操作进行卷积,然后利用平均池化和最大池化聚合通道信息,最后利用不同核大小的卷积运算计算全局空间注意力权重,利用这些权重对原始输入进行重新加权,得到增强的特征
TPA 目标事先感知任务
![![[Pasted image 20251014111303.png]]](https://i-blog.csdnimg.cn/direct/bb7aa736ce064bb495838769c09bfec4.png)
动机
仅添加MTA不足以确保效果
方法
添加一个TPA头引入目标实现事先感知任务,在训练过程中参数冻结
首先通过预训练 RGB 单模态两级目标检测器来获得 TPA 权重,使用其他 SOTA 单模态检测器生成的伪标签或手动注释的标签。然后,预训练一个仅包含 DCFM 模块的检测器,使模型能够从双模态图像中学习鲁棒的表示。最后,将 MTA 和 TPA 模块纳入模型中进行联合训练。
在模型训练的时候MTA输出的特征会同时送到TPA检测头辅助任务的优化
通过 TPA 辅助任务约束,MTA 模块被优化为专注于 RPN 识别的目标区域,从而为后续融合模块提供更高质量的 RGB 特征。该策略的有效性在中通过消融实验清楚地说明。
实验
数据集
DroneVehicle数据集是从无人机上采集的大规模遥感数据集,由 28,439 对 RGB 和红外图像组成。每个图像都标注了五个类别(汽车、公共汽车、卡车、货车和货车)的定向边界框,总计 953,087 个实例。场景从白天到夜间不等,包括道路、市区、停车场等。该数据集正式分为训练集、验证集和测试集,分别有 17,990、1,469 和 8,980 对图像对。
VEDAI数据集设计用于高分辨率航空图像的车辆检测,包括多样化的城市和乡村场景,以及针对各种车辆类型(如汽车、卡车和货车)以及其他一些物体(如飞机和轮船)的定向注释,共 9 个类别。该数据集由 1,246 对 RGB 和红外图像组成,分辨率分别为 1024x1024 和 512x512 像素。
实验设置
实验在24GB的4090上进行,该模型的代码环境基于 CUDA 11.6 和 PyTorch 1.13.1,基于 MMdetection 和 MMrotate 框架构建。我们采用预训练的 VMamba 作为我们的骨干网络,输入图像尺寸设置为 512x640,批量大小为 2。使用的优化器是 AdamW,初始学习率为 0.0001,权重衰减为 0.05。数据增强仅限于随机翻转,概率为 0.5。为了增强模型稳定性,我们在训练步骤中从基本事实中删除了所有零面积边界框。该模型经过 12 个 epoch 的训练,以确保与以前的方法进行公平比较。
指标
平均精度 (mAP) 是用于目标检测任务的广泛使用的评估指标。它通过将检测到的边界框与基于并交(IoU)指标的地面实况框进行比较来评估其精度。mAP 是数据集中所有类别的平均精度 (AP) 值的平均值,为不同对象类别的对象检测模型提供整体性能度量。在这项工作中,我们遵循使用 0.5 的 IoU 阈值来计算 mAP 指标的常见做法。
与最先进方法比较
![![[Pasted image 20251014144516.png]]](https://i-blog.csdnimg.cn/direct/105ecd33167546ae9b23e802dee23d39.png)
在DroneVehicle数据集上的对比试验,
采用OBB检测头,比较方法包括基于单模态 RGB 和 IR 数据的经典目标检测方法:用于单级方法的 RetinaNet、R3Net 和 S2ANet;更快的 R-CNN、RoITransformer 和定向 R-CNN,适用于两阶段方法。此外,它还包括多模态融合检测方法,如 Halfway Fusion、AR-CNN、CIAN、MBNet、TSFADet 和 C2Former。在 3 种单模态方法和 7 种多模态方法中,大多数多模态融合检测方法的性能明显优于单模态检测器,表明多模态数据相对于单模态数据具有显著优势。
在之前的多模态探测器中,C2Former 以 74.2%mAP@0.5 的检测精度达到最高,其次是 TSFADet,mAP@0.5%为 73.9%。相比之下,我们的方法达到了最高的 mAP@0.5,为 79.4%,比 SOTA 高出 5.2 个百分点。此外,当将我们提出的模块集成到其他经典探测器(如 Faster R-CNN)中时,我们还观察到优越的性能超过了当前的 SOTA。此外,该表显示,该方法的性能改进主要是由于对实例较少的类别(例如卡车 (8657)、货车 (5064) 和货车 (4282) 的检测能力增强。![![[Pasted image 20251014144816.png]]](https://i-blog.csdnimg.cn/direct/d4f5e72fae334a5c86e7d764e1d67d6e.png)
在图5中是可视化比较,如图中蓝色虚线圆圈所示,与SOTA方法比较,该方法在雾天和夜间等挑战性场景中能识别出更多实例,更准确,与实验结果一致,证明了方法的有效性和推广能力
VEDAI数据集
![![[Pasted image 20251014144935.png]]](https://i-blog.csdnimg.cn/direct/b436e748575647b0b8ef66c0ce694068.png)
将DMM集成到S2A−Net和定向R−CNNS^2A-Net和定向R-CNNS2A−Net和定向R−CNN,上表提供了可视化结果,下表显示了在VEDAI数据集上的实验结果,VEDAI数据集的主流多模态融合检测研究主要基于水平边界框(HBB),对 OBB 的探索有限。因此,我们主要将我们的方法与 VEDAI 数据集上的单模态检测器进行比较,例如单级方法 RetinaNet 和 S2A-Net,以及两阶段方法 Faster R-CNN、RoITransfomer 和 Oriented R-CNN。对于多模态方法,我们在 DroneVehicle 数据集上与基于卷积注意力的方法 CMAFF 和 SOTA 方法 C2Former 进行了比较。![![[Pasted image 20251014145029.png]]](https://i-blog.csdnimg.cn/direct/423b46e83e0349c495db44f32ef7460f.png)
从实验结果看,两阶段方法明显优于一阶段方法,这是因为VEDAI数据集实例非常小,使得单阶段方法难以直接回归到目标精确位置,C2FormerC^2FormerC2Former在VEDAI数据集上仅达到55.6%mAP@0.5 二DMM能达到65。7,提高了10.1百分点,甚至超过了大部分两阶段单模态方法
基于定向R-CNN的CMAFF方法达到了69.5%的mAP@0.5,而DMM超过了5.8%,达到了最佳检测性能,实验结果充分证明了该方法在遥感中的定向目标检测任务通用性
消融实验
![![[Pasted image 20251014150344.png]]](https://i-blog.csdnimg.cn/direct/d91cfb49233f439697320aed0c1c5a04.png)
在DroneVehicle上进行了消融实验,为消除不同探测器的影响,使用经典的Faster R-CNN作为基线,并改装为了双流定向探测器,结合Mamba使得mAP增加了5.3%,添加DCFM后进一步提高了0.5%,证明了Mamba模型的有效性,直接采用MTA模块会导致mAP下降0.2%,相比指甲,引入TPA辅助任务后mAP能提高到76.1%
集成所有模块后,该模型以77.2%的mAP实现了最佳性能
此外检测头也会影响模型性能,DMM与S2−NetS^2-NetS2−Net结合能将mAP提高到79.4%
结果表明,每个组件都有助于mAP改善
计算成本比较
![![[Pasted image 20251014150649.png]]](https://i-blog.csdnimg.cn/direct/e4cb0e802fdd487d844eb008e3c1de72.png)
表中给出了与SOTA方法的比较,使用S2NetS^2NetS2Net作为基本检测器并遵循相同配置,模型不仅保持了较低的参数数量,只有87.97M,减少约25%,且实现了最高的性能![![[Pasted image 20251014150753.png]]](https://i-blog.csdnimg.cn/direct/3db417682a5c44e8bf08636ff15f78a0.png)
如图所示,随着输入图像大小增加,G FLOPS几乎线性增加,相比之下C2FormerC^2FormerC2Former的尽管最初接近DMM在小尺寸下,但由于Transformer的二次复杂性,对于较大的图像下GFLOPS明显超过了DMM,随着输入图像的增加C2FormerC^2FormerC2Former内存会显著增加,在24GB的4090上最大支持1092×10921092 \times 10921092×1092的推理大小,而DMM支持3016×30163016 \times 30163016×3016的输入,大约是7.6倍,证明了卓越的能力
特征分析
为了证明方法在模型的有效性,下图展示了有和没有这些模块的特征图比较,很明显结合MTA和TPA模块该模型表现出了更高程度对目标物体的关注,有效抑制了背景噪声![![[Pasted image 20251014151056.png]]](https://i-blog.csdnimg.cn/direct/a7b57c7b6f2c46a79072162d5a6425bc.png)
结论
方法
提出了DMM,这是用于遥感中面向多光谱的目标检测框架
包含DCFM,利用模态差异信息作为指导整合全局上下文信息,自适应解决模态间冲突,以实效高效的跨模态特征融合,为保证MTA模块有效性,应用了TPA辅助任务,用单模态损失作为惩罚约束模型的优化过程
效果
在两个具有挑战性的数据集上进行了广泛的实验,证明了DMM的泛化能力,取得了SO他结果
更多推荐
所有评论(0)