《Representation Space Constrained Learning with Modality Decoupling for Multimodal Object Detection》
author={YiKang Shao and Tao Shi},原文链接: https://arxiv.org/abs/2511.15433摘要多通道目标检测由于其较强的鲁棒性,在学术界和工业界都引起了广泛的关注。虽然许多研究都集中在改进通道融合策略上,但大多数忽略了融合退化,并且没有一个对其潜在原因提供理论分析。为了填补这一空白,本文对多模式检测中的融合退化问题进行了系统的理论研究,发现了两个
author={YiKang Shao and Tao Shi},
原文链接: https://arxiv.org/abs/2511.15433
摘要
多通道目标检测由于其较强的鲁棒性,在学术界和工业界都引起了广泛的关注。虽然许多研究都集中在改进通道融合策略上,但大多数忽略了融合退化,并且没有一个对其潜在原因提供理论分析。为了填补这一空白,本文对多模式检测中的融合退化问题进行了系统的理论研究,发现了两个关键的优化缺陷:(1)在多模式结构下,单峰分支主干的梯度被严重抑制,导致单峰分支的欠优化;(2)通道质量的差异导致较弱的通道经历更强的梯度抑制,这反过来导致通道学习的不平衡。针对这些问题,提出了一种基于表示空间约束的通道解耦学习方法(RSC-MD),该方法由两个模块组成。RSC模块和MD模块被设计为分别放大抑制的梯度,并消除通道间耦合干扰以及通道不平衡,从而实现对每个通道特定主干的全面优化。在FLIR、LLVIP、M3FD和MFAD数据集上进行的大量实验表明,该方法有效地缓解了融合退化,并在多个基准测试中获得了最先进的性能。
一、INTRODUCTION
多模态目标检测[1]近年来在研究人员和工程师中获得了显著的吸引力。通过整合来自多个模式的信息并在它们之间建立共同点或互补性,它实现了通过单一模式方法无法实现的目标或应对新的挑战,引起了不同领域的关注。例如,自动驾驶中的对象感知[2],城市安全的视频监控和检测[3],以及无人机航空成像中的车辆和对象识别[4]。虽然单峰目标检测已经取得了很大的进展,但在恶劣的成像条件下,仅依靠可见光进行检测仍然存在鲁棒性和泛化不足的问题[5]、[6]。红外成像是通过热辐射形成的,其图像具有颜色多样性有限、分辨率低的特点。因此,仅使用红外图像极大地限制了模型[7]、[8]的表示能力。目前的研究结合了可见光和红外图像进行目标检测。通过学习多通道特征,模型能够捕捉共享特征并融合互补的语义信息,从而增强其表示能力。例如,当可见光图像因恶劣天气而退化时,红外轮廓可以补充缺失的细节,而可见光图像中清晰的纹理可以弥补模糊的红外特征,从而产生更健壮和可推广的检测性能[6]、[7]。
近年来,这一研究领域取得了显著进展[9]、[10]、[11]。现有的方法可以大致分为两类:两阶段方法和一阶段方法。两阶段方法首先对多个模式[12]、[13]、[14]进行图像级融合,然后对融合后的图像进行目标检测。然而,这些方法有一个固有的局限性--独立于融合和检测的优化会导致语义不对齐和特征表示之间潜在的不一致。
研究人员提出了一阶段框架,将图像融合和目标检测整合到一个统一的学习过程中。最近的研究[15]、[16]、[17]表明,与图像级或决策级融合相比,特征级多模式融合取得了更好的性能。OneStage方法主要集中在改进多模式融合策略以提高检测性能[18]、[19]、[8]或使用复杂的注意机制来更好地利用跨模式互补[7]、[20]、[21]。虽然这些方法已经取得了显著的结果,但它们忽略了一个基本但违反直觉的问题--某些对象可以通过单模探测器准确地检测到,而多模探测器却无法检测到。研究[5]调查了这一现象,并将其归因于多模式训练期间单峰分支内学习不足,将其称为融合退化现象。
虽然研究[5]试图通过引入额外的知识蒸馏[22]来加强单模学习来缓解这一问题,但它并没有从根本上揭示单模学习不足的根本原因,也没有对单模退化如何在多模模型中引入优化缺陷提供理论解释。一些研究也解决了多模式优化缺陷的类似问题。研究[23]表明,图像采集条件的巨大变化或导致通道退化的技术挑战可能导致极端的通道失衡,从而损害模型的性能。研究[24]、[25]提出,不兼容的信息可能会导致融合冲突,从而限制模型优化。然而,这些分析只关注通道融合或数据质量,仍然没有确定多通道优化缺陷的根本架构原因。
针对这一问题,本研究从理论上分析了多模式目标检测中的融合退化问题,证明了目前的多模式目标检测体系结构存在优化缺陷。即使表现良好的单模态分支也会受到影响,无法达到基于单模态数据训练的模型的性能。
具体地说,本研究从理论上论证了多通道目标检测框架中的两个优化缺陷。首先,融合模块过度抑制了单峰分支主干的梯度,导致单峰主干的欠优化。其次,由于不同模式的质量不同,这种梯度抑制在不同模式之间表现出放大效应:较弱的模式经历较强的梯度抑制,导致模型过度依赖较强的模式而忽略较弱的模式,从而导致单峰分支之间的优化不平衡。
为了弥补理论分析中发现的优化缺陷,提出了一种基于表示空间约束的通道解耦学习方法。该方法包括两个主要部分:表示空间约束(RSC)模块和通道解耦(MD)模块。
具体地说,RSC模块对每个主干网络施加辅助表征约束,以放大由融合模块抑制的梯度,从而促进单峰主干内的充分学习。此外,MD模块旨在消除由通道耦合引起的跨通道竞争学习和干扰。MD模块通过分离不同通道的主干网络并实现它们的独立优化,防止了由于梯度抑制和强弱通道之间的通道间竞争而产生的优化缺陷,从而缓解了多通道学习过程中的通道失衡问题。
本文的主要贡献如下:
·从理论上论证了多模式目标检测中单峰欠优化问题的存在:多模融合模块阻碍了各通道主干网络的优化,导致单峰分支的欠优化。
·本文从理论上论证了多通道目标检测中的不平衡优化缺陷:较弱的通道会经历更大的优化抑制,导致模型优先考虑主导通道而忽略较弱的通道,从而不能有效地利用多通道的互补优势。
·提出了一种适用于单峰骨干网络的表示空间约束(RSC)模型。通过在每个通道主干上施加辅助表征学习约束,该模块放大了被抑制的梯度,并促进了单峰分支内的充分学习。
·提出了一种用于多模式检测的通道解耦(MD)模型。通过采用通道解耦策略,MD模块能够独立地优化每个通道,从而消除通道间的冲突。
二、RELATED WORK
Multimodal Object Detection
近年来,多通道目标检测领域的大量研究取得了令人瞩目的成果。这些进展已经成功地应用于多个领域,包括自动驾驶、机器人工程和卫星遥感图像[26]、[27]、[28]、[29],因此引起了对多模式目标检测的越来越多的关注。根据目前流行的分类方法,多通道目标检测方法主要根据融合阶段分为三类:早期融合、中期融合和晚期融合--也分别称为像素级融合、特征级融合和决策级融合。在多模式目标检测中,某些早期的融合方法被称为两阶段检测方法。这些方法首先对多模式图像进行融合,然后对融合结果[12]、[13]、[14]、[30]、[31]、[32]、[33]、[34]进行目标检测。然而,像素级融合通常会导致较高的计算成本和较大的模型大小,同时往往无法获得令人满意的性能和推理速度[35]。此外,人们普遍认为两阶段方法由于融合和检测过程的解耦而导致优化冲突[8]。
后期或决策级融合方法[36]的目标是对每种模式使用独立的检测器进行检测,并组合它们的输出,以增强最终结果的稳健性。然而,决策级融合受到独立检测器之间的冲突和不平衡依赖的限制,导致融合性能低于早期和中期的融合方法。
越来越多的研究表明,特征级融合方法总体上优于其他两种方法,并已被广泛应用于多通道目标检测研究[9]、[37]、[38]。在本研究[9]中,采用了基于Transformer的架构来实现中级特征融合,在随后的研究[38]中,引入了跨通道注意融合模块来增强通道融合,从而提高检测性能。参考文献[39]提出了一种不确定性感知的融合方法来解决配对图像中的校准误差和形态差异。随着Transformer体系结构的广泛采用,基于注意力的融合方法引起了广泛的研究兴趣。通过构建复杂的注意机制,这些方法旨在优化可见光和红外模式的融合,从而进一步提高检测精度[40]、[41]、[42]、[43]、[44]、[45]、[46]。与基于Transformer的设计类似,基于Mamba的通道融合框架[47]、[29]、[48]在多通道检测方面也取得了令人满意的结果。此外,知识蒸馏[22]在目标检测中的成功应用启发了后续的研究工作。基于抽取的框架指导网络更有效地提取特定于通道的表征,促进跨通道特征融合,已成为该领域的主流研究方向之一[5]、[49]、[50]。
然而,这些研究主要集中在探索更有效的通道融合策略来提高多通道检测模型的性能,而忽略了当前特征级融合方法固有的融合退化现象及其背后的潜在体系结构缺陷。
Modality Conflict and Modality Imbalance in Multimodal Detection
最近的研究已经开始解决多模式检测方法中的模式失衡和融合退化的问题[5],[51]。然而,大多数研究仍然将这个问题归因于不同模式之间的融合冲突[29]。参考文献[52]指出,现有的大多数研究依赖于整合来自不同情态的互补信息,而忽略了它们固有的差异导致的语义冲突。为了缓解这个问题,它引入了一种通道冲突纠正方法。文献[24]中的工作认为,不可区分的通道内特征会导致单通道干扰,并削弱主导通道的表征。为了解决这一问题,提出了一种基于置信度的策略来消除这种干扰。文献[25]中的研究将通道间的异质性归因于每个通道内与任务相关的信息内容的差异,这表明每个通道携带的信息量存在显著的不平衡。针对这一问题,提出了一种动态的通道信息平衡方法。根据[53],特征级融合方法固有地受到通道不平衡的影响,为了弥补这一问题,引入了带阈值掩蔽的动态丢弃。参考文献[46]还确定了多模式检测中的不平衡,并建议使用指示性照明信号来指导用于缓解的注意力计算。
最近的研究发现,不同通道的通道信息内容和特征表征存在差异,并将其归因于融合冲突和通道学习不平衡的原因。这些研究主要集中在改进融合策略,以实现更有效的通道整合,从而缓解多通道学习过程中的冲突和不平衡。尽管这些努力确实提高了模型的整体性能,但它们在很大程度上忽略了现有检测框架固有的体系结构缺陷。文献[5]、[54]使用知识提取技术来加强特定于通道的特征提取,并缓解较弱通道的欠优化。然而,它们未能从理论上解释这种优化不足的根本原因。同样,文献[55]、[56]、[35]中的工作也认识到了通道不平衡的存在,但他们的方法实质上是通过处理数据噪声或根据通道贡献自适应地调整融合机制来解决这个问题。研究[57]、[58]、[51]建立在多通道领域不平衡相关研究的基础上,并揭示了多通道建筑中的强通道和弱通道之间存在内在的差异。然而,它们未能从多模式检测体系结构本身的角度提供理论证据。
综上所述,最近关于通道冲突和不平衡的研究主要集中在改进融合机制上,而很少有人研究多通道检测框架体系结构设计中的固有缺陷。
三、METHOD
在这一部分中,本文首先从理论上分析了当前多通道目标检测框架所固有的两个优化缺陷,然后提出了一种基于表示空间约束学习的通道解耦方法(RSC-MD)来解决这些缺陷。
3.1Theoretical Analysis of Defects in Modality Optimization for Multimodal Object Detection
为了解决多模式检测中的融合退化等缺陷,本研究通过理论分析来阐明这些缺陷的来源及其对整体模型的影响。对于给定样本xi,多模式对象检测模型接受来自两个模式m1和m2的输入,使得样本可以被表示为
。与当前最先进的目标检测模型YOLO相一致,该工作利用特征金字塔的不同层作为检测特征,通常包括层P3、P4、P5的输出,这里将其集体抽象为Bi.类似地,特征提取网络的结构被统一抽象;对于输入通道xm1 i,所得到的特征表示可以表示为:

其中,FM1表示由特征提取层Backbone1提取的模态M1的图像特征,θ1表示B1的参数,其中层P3、P4和P5的输出包括在B1内。
类似地,可以获得
的模式表示:

与已有的大多数研究一致,本文采用特征级中间融合作为通道特征融合方法。因此,融合模块可以由以下公式抽象地表示:

这里,FM1 1和FM2 2表示用作融合模块的输入的前述特征提取网络的输出。与主干网络类似,检测网络模块被抽象为包括多个层次的复杂复合功能。尽管目标检测算法的不同版本和体系结构可能使用不同的计算过程,但其正向计算在一般意义上可以抽象地表示如下:

其中,θϕ表示检测模块函数的参数。
对于损失函数,考虑到目前广泛采用的YOLO模型,其损失函数可以表示为:
![]()
其中,分类损失表现为:

根据梯度链规则,多通道目标检测中的分类损失反向传播到骨干1的梯度可以表示为:

根据上面的公式,反向传播到Backbone 1的梯度可以计算为:

这里,WM1k和WM2k在抽象的数学级别上表示融合模块中的对应参数。术语正和负分别表示正样本和负样本的情况。相应地,表示为Guni的单峰模型的梯度可以表示如下:

由于该模型采用了SI鲁激活函数,因此输出特征值可以近似视为非负的。它的表述如下:

可以推断,通过激活函数后的Logits值的范围由下式给出:

基于以上结果,可以近似假设
的值小于或等于1。通过将这一结论应用于在多模和单模体系结构中传播回主干的梯度计算,可以获得以下表达式:
![]()
基于前述分析,阳性样本的表示可导出如下:

由于多模主干网络中的梯度比单模网络有很大程度的抑制,多模检测主干网络的收敛速度比单模网络慢,收敛效率也较低,这严重限制了模型的优化。因此,我们确定了第一个优化缺陷。
Optimization Deficiency 优化不足(1):在多模式体系结构中,从融合检测模块传播回主干的梯度明显小于单峰情况下的梯度,导致多模式检测框架内的单峰分支未得到优化。
由于通道质量的不同,学习的难易程度因通道而异。多通道学习中一个得到广泛认可的共识是,该模型倾向于优先考虑容易学习的通道,陷入了专注于主导通道而忽略较弱通道的困境,从而极大地限制了模型的整体性能。在极端情况下,多模式检测模型的性能甚至可能不如单模式模型,这与多模式学习的初衷相矛盾,即有效地利用来自多个模式的信息并利用互补特征。
进一步的分析表明,在当前的多模式架构下,融合检测模块应用于主干的梯度在不同的模式之间是相同的,这导致了两个模式的优化不平衡。与单模结构相比,在多模式检测中传播到主干的梯度包括附加的特定于模式的项,其大小可以表示如下:

其中,mi=weakmodality,mi代表较弱的情态,较难学习。相反,另一种情态作为主要情态,相对更容易学习和表达。如果m2对应于更容易学习的通道,则在表征学习过程中,关系
通常成立。这是因为主导模式在优化过程中收敛更快、更有效,导致其特征权重向量更接近类中心,从而产生更大的内积值[59]、[60]。
通过综合上述公式,可以推导出多峰和单峰情况之间的梯度差的表达式如下:

基于以上理论分析,可以得出结论:弱通道比强通道受到更明显的梯度抑制,导致其特征提取能力的优化不足。
优化不足(2):弱通道比强通道经历更大的梯度抑制,导致单峰分支之间的学习不平衡。因此,该模型倾向于优先考虑优势通道,而忽略较弱的通道,从而无法有效地利用多通道信息的互补优势。
对于负样本,也存在同样的优化缺陷。最近在目标检测方面的研究[61]表明,在检测模型的优化过程中,存在正负样本之间的不平衡。现有的优化方法主要着眼于强调正样本,将其视为主要贡献者。然而,根据前述理论分析,对于负样本的多模式检测模型所应用的梯度与对于正样本的多模式检测模型所应用的梯度完全相反。具体地说,在多模式目标检测中,与单峰模型相比,负样本贡献了更大的梯度。这一观察结果与正负样本加权原则相矛盾,反而对模型优化产生了额外的不利影响。因此,对正样本得出的结论也适用于负样本:增加的负样本梯度同样会损害模型的适当优化。
综上所述,上述理论分析明确了多模式目标检测中融合退化的根源:在多模式目标检测方法中,模块之间存在优化冲突。传播到多模式检测模型的主干网络的梯度小于相应的单峰梯度,并且不同学习难度的模式受到不同程度的梯度抑制。这导致了跨多个通道的不平衡学习,进一步限制了检测任务的整体优化。
3.2 Representation Space Constrained Learning with Modality Decoupling
通过比较由理论分析得出的数学表达式,可以观察到导致优化缺陷的干扰来自于另一种形式。这种干扰在单模学习中不存在,但由于涉及对数和指数变换的不正确操作而在多模学习中持续存在,从而阻碍了正确的消除。具体地说,在
的导数计算期间,来自另一模式的术语
没有被适当地消除,导致两个模式在训练期间耦合并且干扰其各自主干网络的优化。

图2.基于通道解耦框架的表示空间受限学习体系结构图。
在这一观察的基础上,本研究提出了一种结构创新,将耦合的通道分离,允许每个通道独立地学习表征,而不会相互干扰。本研究提出了一种带通道解耦的表示空间受限学习(RSC-MD)方法,如图2所示,该方法由两个主要部分组成。第一个组件通过在多模式体系结构中施加表征学习约束来增强每个单峰分支主干的特征提取能力,其中每个主干配备了独立的检测头和相应的丢失监督。第二个组件通过通道解耦缓解了通道间耦合干扰引起的优化缺陷,确保每个单通道主干的优化独立进行,不受其他通道的干扰,同时使融合模块能够有效地集成多通道特征以进行联合优化。
1)表示空间约束学习:为了解决多模式检测模型中单峰分支的欠优化问题,本文引入了表示约束监督(RCS)模块,对每个单峰主干施加表示学习约束。RCS的设计是为了放大反向传播的梯度,以增强每个通道的特征提取能力,并确保学习的表示与相应单峰分支的原始优化方向保持一致。具体地说,RCS采用了两个额外的检测头,分别接收由两个通道的主干生成的多尺度特征地图。该过程可按如下方式制定:

其中,Auxm1和Auxm2表示辅助检测头的输出,而H表示抽象检测头模块--多级复合函数。θa1和θa2表示它们的内部参数。在辅助头部AUXM1和AUXM2独立地完成其正向计算之后,向后传播的梯度仅被传输到对应的特定于通道的主干。通过这种方式,每个主干接收目标表示约束,引导其特征空间逐步逼近在单峰训练下获得的表示空间。
相应地,为两个辅助检测头添加了两个辅助损失函数,表示为:

其中,Loss(·)表示模型损失计算。为了保持一致性,它遵循与单峰体系结构中使用的损耗函数完全相同的公式。总模型损失表示为:
![]()
其中,α,β,γ表示应用于不同模态的约束系数,并且它们用作整个模型的超参数。

图5.性能比较(VIS通道)

图6.性能比较(红外通道)。
RCS模块通过辅助检测头对每个单峰分支主干施加方向约束,引导每个主干网络逼近其各自单峰训练对应的表示空间。与先前的研究一致,如[5],线性探测评估是在每种通道的骨干网络上进行的。图5和图6所示的结果表明,尽管辅助检测头增加了先前抑制的梯度并改善了整体模型性能,但每个单峰分支主干的优化仍然受到其他通道的存在的影响。因此,多通道体系结构中的一些单通道分支主干无法达到在单通道训练下获得的性能水平。这表明,尽管梯度抑制的不足得到了部分缓解,但由于强弱模式之间的不平衡以及过多的负样本梯度所造成的优化缺陷仍然没有得到解决。
为了克服这一局限性,提出了一种通道解耦方法来克服这些优化缺陷,确保用于多通道目标检测的特征提取的骨干网络得到充分优化,并能够为多通道特征融合提供更有效的特征。
2) Modality-Decoupled Learning:MD模块的目的是消除多模式学习中的多项式
中的残余项
或
,这些项由于通道耦合而在多模式学习的骨干优化过程中没有被正确消除。在前述分析中,即使在引入额外的表示约束之后,模式之间的优化干扰仍然存在。虽然辅助检测头可以部分缓解正样本的梯度抑制,但由于不平衡的通道学习和过大的负样本梯度而导致的优化缺陷仍然没有得到解决。现阶段,不同模式的骨干网由融合模块的检测头和新引入的辅助检测头共同约束。因此,该模型既受到不平衡的通道学习的影响,又受到负样本的干扰,从而削弱了正样本的优势,导致每个单峰骨干无法匹配或超过单通道模型的性能。
在RSC模型的基础上,提出了一种通道解耦(MD)方法,应用于通道骨干网络和融合网络的交界处,以正确映射或直接丢弃反向传播的梯度。如图2所示,MD模块实现了每个主干网络的分离表示学习,从而消除了通道间干扰。具体地,MD模块通过与RSC模块中的辅助检测头相结合,确保每个单峰分支骨干网络只接收与其指定的表示空间对应的优化梯度信号。这实现了主干网络的通道解耦优化,并消除了
造成的干扰。
MD模块的详细流程可以表示如下:

这里,MD(I)表示在网络正向计算期间MD模块的第i个输入分支,MD(J)表示MD模块的第j个输出分支。具体地,i=0,1对应于两个通道的特征映射输入,而j=0,1,2对应于两个辅助检测头Auxm1、Auxm2和融合模块及其通过MD模块后的检测头。通过通道解耦模块的梯度映射机制,将新引入的独立辅助检测头反向传播的梯度分别映射到相应的特征提取主干。这强制了与单峰学习一致的表示学习约束,同时通过梯度掩蔽消除了来自融合模块和无关检测头的梯度干扰。因此,实现了对特定于通道的主干的去耦合训练,确保每个主干可以独立地向其最优表示进行优化。此外,通道解耦缓解了强通道和弱通道之间的不平衡优化,防止了通道之间的竞争学习引起的优化冲突。
综上所述,在所提出的体系结构下,多通道目标检测框架采用以下范例:融合模块及其检测头产生的损失限制了融合子网络的表示学习,而用于特定通道特征提取的单峰分支骨干的表示学习由附加的独立辅助检测头来监督。该设计有效地避免了由于通道耦合引起的通道优化冲突和单峰分支间的不平衡学习,从而增强了模型的泛化能力和鲁棒性。
更多推荐
所有评论(0)