武汉大学电子信息学院和计算机科学学院(Chang Xu, Jian Ding, Jinwang Wang, Wen Yang, Huai Yu, Lei Yu, Gui-Song Xia)发表的CVPR2023.

核心亮点:

这篇论文聚焦面向微小旋转目标检测(比如航拍图像中的小车辆、风车等),核心解决现有方法的两大痛点:匹配失调(位置先验、特征、实例不匹配)和样本不平衡(极端角度 / 尺度的目标缺少正样本),提出的 DCFL 方案在 6 个数据集上刷爆 SOTA,尤其适合单阶段检测器。

关键创新点:

1. 动态先验机制

  • 痛点:传统方法的先验框 / 点是固定的,无法适配微小旋转目标的极端形状。
  • 创新:设计 Prior Capturing Block(PCB),通过可变形卷积(DCN)和膨胀卷积,让先验位置随网络训练动态更新,同时用二维高斯分布拟合先验,既保留密集检测器的快速收敛性,又解决 “先验 - 实例” 不匹配问题。
     

2. 粗到细标签分配

  • 痛点:静态标签分配(如 MaxIoU)无法适配微小旋转目标,导致正样本不足或质量低。
  • 创新:
    • 粗匹配(CPS):用广义詹森 - 香农散度(GJSD)跨 FPN 层筛选候选正样本,突破单一层级限制,保证样本多样性。
    • 细匹配(FPS):通过预测分数重排序(MPS)+ 动态高斯混合模型(DGMM)过滤低质量样本,DGMM 同时考虑目标的几何中心和语义中心,更精准。

3. 端到端无额外分支

        优势:所有模块(动态先验、粗到细分配)嵌入单阶段检测器,不增加额外计算分支,速度(20.9 FPS)和参数量(36.1M)均优于主流方法(如 S²A-Net、R³Det)。

论文摘要:

检测任意方向的微小目标对现有检测器构成了严峻挑战,尤其是在标签分配方面。尽管近年来面向旋转目标的检测器已探索自适应标签分配方法,但旋转微小目标的极端几何形状和有限特征仍会引发严重的匹配失调与样本不平衡问题。具体而言,位置先验、正样本特征与目标实例之间存在匹配偏差,且由于缺乏合适的特征监督,极端形状目标的学习过程存在偏向性和不平衡性。为解决这些问题,我们提出一种动态先验机制与粗到细标签分配器相结合的方案,称为 DCFL(Dynamic Coarse-to-Fine Learning)。一方面,我们将先验、标签分配和目标表示均建模为动态形式,以缓解匹配失调问题;另一方面,通过粗粒度先验匹配与细粒度后验约束动态分配标签,为不同实例提供合适且相对均衡的监督信号。在六个数据集上的大量实验表明,该方法相较于基线模型实现了显著性能提升。值得注意的是,在单尺度训练和测试设置下,我们的方法在 DOTA-v1.5、DOTA-v2.0 和 DIOR-R 数据集上取得了单阶段检测器的当前最优性能。代码已开源:https://github.com/ChaselTsui/mmrotate-dcfl

引言:

旋转边界框通过引入旋转角度大幅剔除了目标背景区域,是目标检测中一种更精细的表示方式 [55]。这一优势在航空影像中尤为突出 —— 此类影像中的目标具有任意方向,由此催生了一系列相关目标检测数据集 [7,11,35,55] 和定制化旋转目标检测器 [10,17,18,60,62]。然而,一个不可忽视的事实是,航空影像中存在大量微小目标。当旋转目标尺寸微小时,现有检测器面临的挑战会变得尤为显著,尤其是旋转微小目标的极端几何特征会阻碍精准的标签分配。

标签分配是目标检测中的基础且关键环节 [68],在该过程中,需要为先验(基于锚框的检测器 [30] 使用框先验,无锚框检测器 [50] 使用点先验)分配合适的标签以监督网络训练。事实上,已有部分研究为旋转目标的有效标签分配奠定了基础,如图 1 所示。早期工作在通用目标检测器的基础上,额外预设不同角度的锚框(例如 Rotated RPN [36])或优化高质量锚框(例如 S²A-Net [17]),随后采用静态规则(例如 MaxIoU 策略 [44])区分正负训练样本。由此得到的先验框能够覆盖更多真实目标(gt)框,有望实现显著的精度提升。然而,静态分配无法根据真实目标的形状自适应划分正负样本,也无法过滤低质量样本,通常会导致次优性能。

近年来,自适应标签分配的探索 [68] 为领域带来了新的思路。在旋转目标检测领域,DAL [38] 定义了一种感知预测的匹配度,并利用该匹配度对锚框进行重加权,实现动态样本学习。此外,多项研究 [21,23,26] 将形状信息融入检测器,提出了形状感知的采样与度量方法。

尽管取得了这些进展,旋转微小目标的任意方向和极端尺寸仍给检测器带来了困境。如图 2 所示,匹配失调和样本不平衡问题尤为突出。一方面,位置先验、特征与目标实例之间存在相互匹配失调问题。尽管部分自适应标签分配方案可能会探索更优的先验框或先验点正负划分方式,但先验背后的采样特征位置仍是固定的,且得到的先验仍为静态均匀分布,大多数先验会偏离微小目标的主体区域。无论如何划分正负样本,先验和特征本身都无法很好地匹配旋转微小目标的极端形状。另一方面,现有检测器容易对旋转目标和微小目标引入学习偏向性和不平衡性。具体而言,对于基于锚框的检测器,形状与锚框差异较大的真实目标会导致交并比(IoU)偏低 [38,59],进而导致正样本缺失。在图 2 中,我们通过 RetinaNet 计算了不同真实目标分配到的平均正样本数量,发现在角度和尺度上与预定义锚框差异较大的真实目标,其正样本数量极度匮乏。对于无锚框检测器,静态先验及其固定步长限制了高质量正样本的数量上限。微小目标仅能覆盖有限的特征点,且这些点大多远离目标主体区域。

这促使我们设计一种更具动态性和均衡性的旋转微小目标检测学习流程。如图 1 所示,我们通过将先验、标签分配和真实目标表示均重构为动态形式(可由深度神经网络(DNN)更新),以缓解匹配失调问题。同时,我们采用动态且递进的粗到细标签分配方式,为各类实例寻求均衡的监督信号。

具体而言,我们引入动态先验捕捉模块(PCB)来学习先验,该模块在保留先验物理意义 [54] 的同时,能够自适应调整先验位置。PCB 的设计灵感来源于 DETR [4] 和 Sparse R-CNN [48] 中的可学习提议范式,这种范式天然避免了预定义先验与特征之间的匹配失调问题。与该范式相比,我们在引入先验更新灵活性的同时,保留了密集型检测器 [32,54] 的快速收敛能力。基于动态先验,我们通过真实目标与动态先验之间的广义詹森 - 香农散度(GJSD)[39] 选择跨特征金字塔网络(FPN)层的粗粒度正样本(CPS)候选集,用于后续标签分配。GJSD 能够将粗粒度正样本候选集扩展到目标的邻近空间位置和相邻 FPN 层,确保极端形状目标拥有充足的候选样本。得到粗粒度正样本候选集后,我们利用预测结果(后验)对这些候选样本进行重排序,并通过更精细的动态高斯混合模型(DGMM)表示真实目标,过滤低质量样本。所有设计均嵌入端到端单阶段检测器中,无需额外分支。

总之,我们的贡献如下:(1)明确指出当前旋转微小目标检测学习流程中存在严重的匹配失调和样本不平衡问题;(2)设计了一种面向旋转微小目标检测的动态粗到细学习(DCFL)方案,首次将先验、标签分配和真实目标表示均建模为动态形式。在 DCFL 中,我们提出利用 GJSD 构建粗粒度正样本(CPS),并通过更精细的动态高斯混合模型(DGMM)表示目标,实现粗到细标签分配;(3)在六个数据集上的大量实验验证了该方法的优异性能。

2. 相关工作

2.1 旋转目标检测

旋转目标的先验设计:锚框(Anchor)作为通用目标检测器(如 Faster R-CNN [44]、RetinaNet [30])中的经典设计,长期推动着目标检测领域的发展。同样,旋转目标检测也受益于锚框设计。早期,Rotated RPN [36] 通过在每个位置平铺 54 个预设角度和尺度的锚框,将 RPN 扩展到旋转目标检测领域。事实上,枚举潜在的真实目标(gt)形状虽能显著提升召回率,但会带来大量额外计算开销。RoI Transformer [10] 采用水平锚框,将 RPN 生成的水平候选框转换为旋转候选框,减少了旋转锚框的数量。为节省计算资源,Oriented R-CNN [56] 引入旋转 RPN,直接基于水平锚框预测旋转候选框。近年来,单阶段旋转目标检测器逐渐兴起,包括基于锚框的检测器 [17, 60](采用框先验)和无锚框检测器 [26, 28](采用点先验)。除 S²A-Net [17] 提出生成高质量锚框外,大多数检测器仍保留固定先验设计。

标签分配:ATSS [68] 指出,标签分配对检测器性能起着关键作用 [14,24,37]。在旋转目标检测领域,DAL [38] 发现输入先验的交并比(IoU)与输出预测的 IoU 存在不一致性,进而定义了一种匹配度作为软标签,对锚框进行动态重加权。近期,SASM [21] 引入形状自适应的样本选择与度量策略,以提升检测性能。类似地,GGHL [23] 提出通过单二维高斯热图拟合实例主体,然后以动态方式划分并重新加权样本。此外,Oriented Reppoints [26] 对 RepPoints [65] 进行改进,通过评估点的质量实现更有效的标签分配。

2.2 微小目标检测

多尺度学习:基本而言,可通过多分辨率图像金字塔实现多尺度学习,但原始图像金字塔会带来巨大计算开销。因此,部分研究 [29, 33, 34, 42, 49, 69] 采用高效的特征金字塔网络(FPN)减少计算量。与 FPN 不同,TridentNet [27] 引入具有不同感受野的多分支检测头,用于多尺度预测。此外,还可通过归一化目标尺度实现尺度不变的目标检测,例如 SNIP [46] 和 SNIPER [47] 会调整图像尺寸,并在特定尺度范围内训练目标。

标签分配:微小目标通常与锚框的 IoU 较低,或仅覆盖有限的特征点,因此存在正样本缺失问题。ATSS [68] 略微平衡了不同尺度目标的正样本数量。NWD [57] 设计了一种替代 IoU 的新度量指标,可为微小目标采样更多正样本。近期,RFLA [58] 利用离群点检测微小目标,实现尺度平衡学习。

上下文信息:微小目标缺乏判别性特征,但目标与周围上下文密切相关。因此,可利用上下文信息增强微小目标检测性能。多区域 CNN(MRCNN)[15] 和内外网络(ION)[3] 是利用局部和全局上下文信息的代表性工作。近期,关系网络(Relation Network)[22] 和基于 Transformer 的检测器 [4,54,72] 通过注意力机制推理实例间的关联关系。

特征增强:可通过超分辨率或生成对抗网络(GAN)增强微小目标的特征表示。PGAN [25] 首次将 GAN 应用于微小目标检测。此外,Bai 等人 [1] 提出 MT-GAN,通过训练图像级超分辨率模型改善微小目标的感兴趣区域(RoI)特征。还有其他基于超分辨率的方法,包括 [2,8,40,43]。

相比之下,我们的方法通过动态建模先验、标签分配和真实目标表示,同时解决先验匹配失调和学习不平衡问题。同时,与两阶段的 RoI-Transformer [10] 或单阶段的 S²A-Net [17] 不同,我们将动态先验嵌入端到端单阶段检测器中,无需引入任何辅助分支。

6. 结论

本文提出了一种新颖的动态粗到细学习(DCFL)方案,用于检测任意方向的微小目标。我们发现,特征先验匹配失调与正样本不平衡是阻碍旋转微小目标标签分配的两大核心障碍。为解决这些问题,我们提出动态先验以缓解匹配失调问题,并设计粗到细标签分配器以减轻样本不平衡问题 —— 其中先验、标签分配和真实目标表示均被重构为动态形式。大量实验与分析结果表明,DCFL 方案能够带来极具说服力的性能提升。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐