论文名称:HS-FPN: High Frequency and Spatial Perception FPN for Tiny Object Detection

论文原文 (Paper)https://arxiv.org/abs/2412.10116


GitHub 仓库链接(包含论文解读及即插即用代码)https://github.com/AITricks/AITricks
哔哩哔哩视频讲解https://space.bilibili.com/57394501?spm_id_from=333.337.0.0


1. 核心思想

本文针对小目标检测(Tiny Object Detection, TOD)中特征微弱且易受干扰的问题,提出了一种新型的HS-FPN。其核心论点是:小目标的特征在频域上主要表现为高频分量。因此,作者设计了高频感知模块(HFP),利用高通滤波器在频域提取小目标线索以增强特征;同时设计了空间依赖感知模块(SDP),通过像素级交互来弥补 FPN 在上采样过程中丢失的空间位置信息,从而显著提升了小目标的检测性能。


2. 背景与动机

2.1 背景与痛点

虽然 FPN 是目标检测的标配,但在处理微小目标(例如 AI-TOD 定义的小于 16x16 像素)时,面临三大挑战:

  1. 可用特征极其有限:经过主干网络多次下采样,小目标在深层特征图中可能仅剩不到 1 个像素,信息丢失严重。
  2. 缺乏针对性关注:标准 FPN 对所有尺度的特征一视同仁,并未针对弱势的小目标进行特征增强,导致小目标容易淹没在背景噪声中。
  3. 缺乏空间感知能力:FPN 自顶向下的路径通过上采样与横向连接相加,容易导致特征不对齐(Misalignment),缺乏对小目标周围空间上下文的精细感知。
2.2 动机图解分析

结构图1

看图说话:

  • 现象:作者利用离散余弦变换(DCT)分析图像,发现低频分量通常代表大面积的平滑背景,而小目标则表现为边缘和细节(高频分量)。
  • 分析:如 Figure 1 所示,当作者逐步滤除图像的低频分量(从 (b) 到 (d)),目标的信杂比(SCR,Signal to Clutter Ratio)显著上升(从 0.99 提升至 1.57)。这直观地证明了:适度去除低频背景干扰,能让小目标在特征图中“脱颖而出”。
  • 结论:这直接启发了本文的核心模块 HFP——即在特征融合前,先在频域滤除低频噪声,生成高频响应掩码来激活小目标特征。

3. 主要创新点

  1. 高频感知模块 (HFP):利用 DCT 和可学习的高通滤波器生成高频响应图,并将其分解为空间和通道注意力掩码,定向增强小目标特征。
  2. 空间依赖感知模块 (SDP):一种改进的像素级 Cross-Attention 机制,用于在 FPN 的横向连接中捕捉底层特征与上层特征之间的空间依赖关系,解决特征不对齐问题。
  3. HS-FPN 架构:将 HFP 和 SDP 无缝集成到 FPN 的横向连接中,形成了一个针对 TOD 任务的高性能特征金字塔网络,且易于嵌入现有检测器(如 Faster R-CNN, Cascade R-CNN)。

4. 方法细节(核心干货)

4.1 整体网络架构

结构图2

数据流解析:

  • Input:ResNet 主干网络输出的四个阶段特征图 { C 2 , C 3 , C 4 , C 5 } \{C_2, C_3, C_4, C_5\} {C2,C3,C4,C5}
  • Top-Down Pathway:与标准 FPN 类似,高层特征 P i + 1 P_{i+1} Pi+1 经过上采样后与低层特征融合。
  • Lateral Connection (横向连接 - 关键改进)
    • 传统的 FPN 是直接 1 × 1 1\times1 1×1 卷积相加。
    • HS-FPN 的路径
      1. 底层特征 C i C_i Ci 首先输入 HFP 模块,利用频域信息进行特征增强。
      2. 增强后的 C i C_i Ci 与上层特征 P i + 1 P_{i+1} Pi+1 同时输入 SDP 模块,进行空间对齐和上下文融合。
      3. 最终输出融合后的特征 P i P_i Pi
  • Output:输出增强后的多尺度特征金字塔 { P 2 , P 3 , P 4 , P 5 } \{P_2, P_3, P_4, P_5\} {P2,P3,P4,P5} 用于后续检测头。

4.2 核心模块 A:高频感知模块 (HFP)

结构图3

设计拆解:

  1. 高频特征生成器 (High Frequency Generator)
    • 输入特征 C i C_i Ci 经过 DCT 变换到频域。
    • 使用预定义的高通滤波器 (High-Pass Filter)(见论文 Figure 4,通过参数 α \alpha α 控制滤波范围)滤除左上角的低频分量。
    • 经过 iDCT 逆变换回空域,得到高频响应图 F i F_i Fi。此时小目标区域已被高亮。
  2. 通道路径 (Channel Path, CP)
    • 利用 F i F_i Fi 计算通道注意力。为了抗干扰,先在 F i F_i Fi 上做 GAP 和 GMP(全局平均/最大池化),再通过 MLP 生成通道权重 u C P u^{CP} uCP
    • 目的:识别哪些通道包含更多的小目标高频信息,并予以加权。
  3. 空间路径 (Spatial Path, SP)
    • 直接对高频响应 F i F_i Fi 进行 1 × 1 1\times1 1×1 卷积,生成空间掩码 u S P u^{SP} uSP
    • 目的:在空间位置上直接抑制背景(低频区域),激活目标(高频区域)。
  4. 融合:将 CP 和 SP 的权重分别作用于原始特征 C i C_i Ci,最后相加输出。

4.3 核心模块 B:空间依赖感知模块 (SDP)

结构图6

设计拆解:

  • 输入:当前层特征 C i C_i Ci(Query 源)和上层上采样后的特征 P i + 1 u P_{i+1}^u Pi+1u(Key/Value 源)。
  • 机制:类似于 Vision Transformer,但针对 FPN 做了特定修改。
    1. 将特征图划分为多个 B l o c k Block Block
    2. Pixel-level Cross Attention:在每个对应的 Block 内部,计算 C i C_i Ci 中的像素与 P i + 1 u P_{i+1}^u Pi+1u 中像素的相似度矩阵。
    3. 与 ViT 的区别:ViT 计算的是 Patch 之间的相似度(全局),而 SDP 计算的是 Patch 内部像素点之间的相似度(局部)。
  • 目的:FPN 的简单相加忽略了上采样带来的像素偏差。SDP 允许底层像素利用注意力机制,从上层特征的局部邻域中“搜索”并聚合最相关的语义信息,从而实现精确的特征对齐

4.4 理念与机制总结

HS-FPN 的核心理念是**“先增强,后对齐”**:

  1. 频域先验:利用图像处理中的先验知识(小目标=高频),通过 HFP 模块在特征提取初期就强行“点亮”微弱的小目标像素,防止其在后续计算中丢失。
  2. 空间矫正:利用 SDP 模块的 Attention 机制,建立跨层级的像素依赖。这不仅解决了 FPN 特征不对齐的问题,还让小目标能够利用周围的上下文信息来辅助识别(例如:看到“路”有助于识别“车”)。

5. 即插即用模块的作用

本论文提出的模块具有很强的通用性,适用于以下场景:

  1. HFP (高频感知模块)
    • 适用场景:任何小目标检测红外弱小目标检测遥感图像检测任务。
    • 用法:可以插入到 Backbone 的每个 Stage 输出之后,或者 FPN 的输入端,作为一种“特征预处理/增强”手段,无需重新训练 Backbone。
  2. SDP (空间依赖感知模块)
    • 适用场景:需要多尺度特征融合的任务(如分割、检测)。
    • 用法:可以替代 U-Net 或 FPN 中的 AddConcat 操作,用于解决上采样带来的特征不对齐问题,提升边缘像素的分类精度。

6. 实验分析

表3

  • SOTA 性能
    • 在 AI-TOD 数据集上,基于 ResNet50 的 Faster R-CNN 搭载 HS-FPN 后,AP 从 18.3 提升至 20.3 (+2.0 AP)。
    • Cascade R-CNN 提升更为明显,从 20.2 提升至 23.6 (+3.4 AP),这在极难的 AI-TOD 数据集上是非常显著的涨点。
  • 消融实验
    • 仅使用 HFP 可带来 +2.2 AP,仅使用 SDP 可带来 +1.1 AP,两者结合效果最佳。
    • 可视化分析(参考论文 Figure 7):经过 HFP 处理后,背景噪声明显减少,目标区域响应变强;加入 SDP 后,特征边缘更加清晰。
  • 计算开销
    • 虽然引入了 Attention 和 DCT,但由于 SDP 是基于局部 Block 计算的,且 HFP 主要是线性变换,整体参数量和 FLOPs 增加在可接受范围内(Params 增加约 4%),换取了显著的精度提升。

HS-FPN 是一篇非常扎实的工作,它没有盲目堆叠复杂的 Transformer,而是从**信号处理(频域)**的本质出发解决小目标特征微弱的问题,设计非常优雅。对于做小目标检测、遥感图像处理的同学来说,HFP 模块是一个非常值得尝试的即插即用 Trick。


到此,所有的内容就基本讲完了。如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。

7. 获取即插即用代码关注 【AI即插即用】

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐