AAAI 即插即用 | 告别标准卷积！这个“风车”算子PConv，让你的YOLO模型在红外“鬼影”中精准索敌

本文提出了一种红外小目标检测的创新方法，通过风车形卷积(PConv)和基于尺度的动态损失(SDLoss)提升检测性能。PConv采用非对称卷积核模拟目标高斯分布特性，在少量参数增加下显著扩大感受野；SDLoss根据目标尺度动态调整位置与尺度损失的权重，有效缓解标签噪声影响。实验验证了方法在多个模型和数据集上的有效性，并构建了新的SIRST-UAVB基准数据集。该研究为红外小目标检测提供了高效且通用

AI模块工坊

775人浏览 · 2025-12-01 17:43:28

AI模块工坊 · 2025-12-01 17:43:28 发布

1. 基本信息

标题: Pinwheel-shaped Convolution and Scale-based Dynamic Loss for Infrared Small Target Detection
论文来源:https://arxiv.org/pdf/2412.16986

2. 核心创新点

提出风车形卷积 (PConv) ：针对红外小目标呈高斯分布的特性，设计了一种即插即用的PConv模块，以非对称卷积核有效扩大感受野并增强底层特征提取能力，参数增加量极小。
提出基于尺度的动态损失 (SD Loss) ：为解决小目标标签的IoU波动问题，设计了SD Loss，该损失能根据目标尺度动态调整位置损失和尺度损失的权重，提升了模型对不同尺度目标的检测性能。
构建新基准数据集 (SIRST-UAVB) ：创建了迄今为止最大、最具挑战性的真实场景单帧红外小目标检测数据集SIRST-UAVB，包含大量无人机和鸟类的小目标，背景复杂，推动了该领域的研究。
验证通用有效性 : 将PConv和SD Loss成功应用于多种主流检测与分割模型，并在公共数据集和自建数据集上均取得了显著的性能提升，证明了其方法的有效性和泛化能力。

➔➔➔➔点击查看原文，获取本文及其他精选即插即用模块集合https://mp.weixin.qq.com/s/6R4uGo2b2aqx7LYIAnOaYQ

3. 方法详解

本文提出的两个核心模块——风车形卷积（PConv）和基于尺度的动态损失（SD Loss）——分别从网络结构和损失函数两个层面优化了红外小目标检测。

风车形卷积 (Pinwheel-shaped Convolution, PConv)

整体结构概述：PConv是一种专为红外小目标设计的卷积模块。它通过并行的非对称卷积核（如1x3和3x1）模拟目标能量由中心向外扩散的高斯分布特性。该结构通过分组卷积和特定填充策略，在少量增加参数的情况下，显著扩大了感受野，并增强了模型对小目标中心特征的关注度。

风车形卷积模块的架构

步骤分解：

并行非对称卷积: 输入特征图 X 被送入四个并行的卷积分支。每个分支使用不同方向的非对称卷积核（1x3或3x1）和非对称填充（Padding），以捕捉不同方向的特征。例如，一个分支使用P(1,0,0,3)的填充和1x3的卷积核。
特征拼接 (Concatenation): 将四个分支输出的特征图在通道维度上进行拼接，整合来自不同方向的特征信息。
通道融合与降维: 使用一个2x2的卷积核对拼接后的特征图进行卷积，该步骤不使用填充。这不仅融合了来自四个“风车叶片”的特征，还起到了类似通道注意力的作用，并调整输出特征图的尺寸，使其能直接替换标准的卷积层。
高效感受野扩展: PConv的设计使其感受野的有效性从中心向外递减，类似高斯分布。相较于一个标准的3x3卷积（感受野为9），PConv(k=3)的感受野达到25，增大了177%，而参数量仅增加了111%（在特定网络配置下），实现了高效的感受野扩展。

基于尺度的动态损失 (Scale-based Dynamic Loss, SD Loss)

整体结构概述：SD Loss旨在解决小目标因人工标注不精确导致的IoU损失剧烈波动问题。其核心思想是：对于小目标，位置信息比形状（IoU）信息更可靠。因此，SD Loss根据目标的实际尺度，动态调整尺度损失（Sloss）和位置损失（Lloss）在总损失中的贡献权重。

步骤分解：

定义基础损失:
- 对于**边界框(BBox)**，沿用CIoU损失的思路，将损失分为尺度损失 L_BS (基于IoU和长宽比)和位置损失 L_BL (基于中心点距离)。
- 对于**掩码(Mask)**，沿用SLS损失的思路，定义尺度损失 L_MS (基于掩码IoU)和位置损失 L_ML (基于极坐标下的平均距离和角度)。
计算动态影响系数: 根据当前特征图相对于原图的缩放比例 R_OC，计算目标真实大小，并依此生成动态影响系数 β。系数被限制在 δ 范围内，δ 是一个可调超参数。

其中 B_gtmax 和 M_gtmax 被设为81像素（小目标定义上限）。
构建最终动态损失:
- SDB Loss (用于BBox): 对小目标，降低尺度损失 L_BS 的权重，增加位置损失 L_BL 的权重。
- SDM Loss (用于Mask): 论文发现对于掩码，增强尺度损失 L_MS 的权重效果更好，以确保模型更关注掩码本身的重合度。

的值随目标面积变化

β 的值随目标面积变化

4. 即插即用模块作用

PConv 模块

适用场景

核心任务: 红外小目标检测 (Infrared Small Target Detection, IRST)、红外小目标分割 (IRST Segmentation)。
适用模型: 可作为即插即用模块，替换CNN模型（如YOLO系列、MSHNet等）的底层标准卷积层，尤其是在处理低信噪比、特征稀疏的图像任务时具有潜力。

主要作用

模拟高斯分布: 模块结构的设计更好地匹配了红外小目标中心亮、边缘暗的高斯空间分布特性。
增强特征提取: 提高了网络对小目标底层特征的分析和提取能力，如图4 所示，PConv的输出能有效增强目标与背景的对比度，并抑制杂波。
大幅扩大感受野: 以极小的参数增量（相较于标准卷积），显著扩大了感受野，有助于捕捉更丰富的上下文信息以区分目标和背景。
提升检测性能: 实验表明（如表1），在YOLOv8n-p2和MSHNet等模型中替换标准卷积后，PConv在多个指标上均带来了显著性能提升。

总结

PConv是一个为红外小目标“量身定制”的高效卷积算子，它用模拟高斯分布的结构换取了更强的特征表达和更大的感受野，是提升小目标检测模型性能的即插即用利器。

SD Loss 模块

适用场景

核心任务: 适用于所有基于边界框（BBox）或掩码（Mask）的红外小目标检测与分割任务。
问题场景: 特别适用于处理目标尺寸变化大、小目标占比高、以及标签存在噪声或不确定性（如IoU易波动）的场景。

主要作用

降低标签噪声影响: 通过动态调整损失权重，降低了因人工标注不精或目标过小导致的IoU剧烈波动对模型训练的负面影响。
提升回归稳定性与精度: 使得模型在训练时对小目标更关注位置精度，对大目标更关注形状匹配，从而提高了回归的稳定性和最终的检测精度（如表2 和表3 所示）。
增强弱信号检测: 通过更稳定的损失函数引导，模型能更好地检测到信号微弱的小目标，减少漏报（如图6 和图7 的可视化结果所示）。
保持简洁高效: 相比于一些引入复杂数学运算（如指数运算）的损失函数，SD Loss的计算简单高效，不增加额外的计算负担。

总结

SD Loss是一个简单而有效的动态损失函数，它通过智能地权衡位置与尺度的重要性，显著提升了模型在复杂场景下对多尺度（尤其是微小）目标的检测鲁棒性。

➔➔➔➔点击查看原文，获取本文及其他精选即插即用模块集合https://mp.weixin.qq.com/s/6R4uGo2b2aqx7LYIAnOaYQ

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

基于 Spring AI + Milvus 的 RAG 混合检索实战

本文介绍了基于Spring AI和Milvus构建企业级RAG知识库问答系统的完整实现方案。系统采用两阶段架构：首先通过轻量级LLM调用进行意图分类（如一般咨询、历史查询、解决方案查找），仅当需要检索时才触发完整的混合检索链路。核心创新点包括：1）向量检索与BM25的RRF融合策略；2）领域词扩展与同义映射的query改写；3）DashScope Rerank精排与多重过滤机制；4）意图路由与后处