一、论文核心亮点(3 分钟速览)

这篇 ICCV 2023 的论文聚焦DETR 类目标检测器的训练优化,核心解决传统 DETR“一对一集合匹配导致正样本查询过少,进而引发编码器特征学习稀疏、解码器注意力学习低效” 的痛点,提出 Co-DETR 协同混合分配训练方案。通过引入多并行辅助头(基于一对多标签分配)强化编码器监督,同时生成定制化正样本查询提升解码器训练效率,在不增加推理开销(无额外参数、无需 NMS)的前提下,大幅提升 DETR 变体性能,ViT-L 骨干网配置下在 COCO test-dev 达 66.0% AP,LVIS val 达 67.9% AP,模型尺寸远小于同类 SOTA。

二、关键创新点(灵感核心)

1. 协同混合分配训练:强化编码器特征学习
  • 痛点:DETR 的一对一匹配仅为每个真实目标分配 1 个正查询,导致编码器输出的监督信号稀疏,特征判别性不足(易受背景干扰)。
  • 创新:
    • 引入多并行辅助头(如 ATSS、Faster-RCNN、FCOS 等),每个辅助头采用一对多标签分配方式,为编码器输出提供密集空间监督。
    • 辅助头共享编码器特征金字塔,不同标签分配方式丰富监督信号,迫使编码器学习更具判别性的 latent 特征,适配多种检测范式。
  • 灵感延伸:“主分支 + 多辅助分支” 的协同训练思路,可迁移到所有 “监督稀疏” 的端到端检测模型,用成熟标签分配方案补全主分支的监督缺陷。
2. 定制化正样本查询生成:优化解码器注意力学习
  • 痛点:解码器正查询过少,导致交叉注意力学习低效,且匈牙利匹配的不稳定性影响训练收敛。
  • 创新:
    • 从辅助头中提取正样本坐标(如 ATSS 的正锚框、Faster-RCNN 的正候选框),编码为定制化正查询,输入解码器与原始查询协同训练。
    • 定制化查询按辅助头分组,仅作为正样本参与训练,不引入负查询,减少内存占用,同时提升正样本训练效率。
  • 灵感延伸:利用辅助任务的中间结果生成补充训练样本,是 “以训促学” 的高效思路,可用于改善各类检测器的样本不平衡问题。
3. 无推理开销的轻量化设计
  • 痛点:现有 DETR 优化方法(如 Group-DETR)常增加推理参数或计算量,难以落地。
  • 创新:所有辅助头和定制化查询仅用于训练阶段,推理时直接丢弃,完全复用原始 DETR 的推理流程,无需手工设计 NMS,保持端到端优势。
  • 灵感延伸:训练阶段引入额外监督 / 模块,推理时 “瘦身”,是平衡训练效果与推理效率的核心设计原则,适合工业级部署。

三、实验结论(快速参考)

核心结论 适用场景
适配 Deformable-DETR、DINO-Deformable-DETR 等变体,12epoch 训练下 Deformable-DETR AP 提升 5.8%,36epoch 提升 3.2% DETR 类模型的快速收敛与性能优化
DINO-Deformable-DETR(Swin-L)在 COCO val 从 58.5% AP 提升至 59.5% AP,ViT-L 骨干网在 COCO test-dev 达 66.0% AP 高精度通用目标检测(大模型配置)
辅助头数量 K=2(ATSS+Faster-RCNN)效果最优,K>3 时因优化冲突导致性能下降 多辅助头协同训练的参数选择
内存占用仅比 baseline 增加约 10%,推理速度与原始 DETR 一致 实时性要求较高的端到端检测场景

四、交叉阅读

维度 DCFL(旋转微小目标) SOAR(航空小目标) MiM-ISTD(红外小目标) Co-DETR(通用 DETR 优化)
核心场景 旋转 + 微小目标(航拍) 通用小目标(航空) 红外弱特征小目标 通用目标(DETR 类模型)
核心创新 动态先验 + 粗到细标签分配 轻量 YOLOv9+SSM+SAHI 嵌套 Mamba(全局 + 局部) 协同混合分配 + 定制正查询
解决痛点 匹配失调 + 样本不平衡 信息丢失 + 部署压力 局部特征不足 + 计算复杂 监督稀疏 + 注意力学习低效
技术核心 标签分配优化 模型架构 + 数据处理 基础模型适配 训练策略优化

五、可延伸的研究方向

  1. 跨场景融合:将 Co-DETR 的 “协同混合分配” 与 DCFL 结合,为旋转微小目标的 DETR 类模型提供密集监督,解决标签分配与监督稀疏双重问题。
  2. 小目标检测适配:在 SOAR 的 SAHI 切片策略基础上,引入 Co-DETR 的辅助头与定制查询,提升小目标的正样本监督密度,进一步改善小目标检测性能。
  3. 红外场景拓展:将 Co-DETR 的训练策略应用于 MiM-ISTD,通过多辅助头强化红外小目标的特征判别性,同时提升解码器的注意力学习效率。
  4. 多模态迁移:将协同混合分配思路迁移到视觉 - 语言检测任务,利用语言分支的辅助信息生成定制查询,提升跨模态对齐精度。

这篇论文的核心价值是 “训练策略创新”—— 不改变 DETR 的核心架构,仅通过优化训练过程中的监督方式和样本生成,大幅提升性能,且无推理开销。这类 “非架构性创新” 的思路在筛选论文时可重点关注,尤其适合寻找 “低成本优化现有模型” 的灵感。

摘要

本文发现,DETR 中一对一集合匹配导致分配为正样本的查询数量过少,这会对编码器的输出造成稀疏监督,严重影响编码器的判别性特征学习,同时也会阻碍解码器的注意力学习。为缓解这一问题,我们提出一种新颖的协同混合分配训练方案(Co-DETR),通过多种标签分配方式学习更高效、更有效的基于 DETR 的检测器。该新训练方案通过训练多个由一对多标签分配(如 ATSS 和 Faster R-CNN)监督的并行辅助头,可轻松增强端到端检测器中编码器的学习能力。此外,我们从这些辅助头中提取正样本坐标,生成额外的定制化正查询,以提升解码器中正样本的训练效率。推理时,这些辅助头会被丢弃,因此我们的方法不会给原始检测器引入额外参数和计算成本,且无需手工设计非极大值抑制(NMS)。我们在多种 DETR 变体(包括 DAB-DETR、Deformable-DETR 和 DINO-Deformable-DETR)上进行了大量实验,验证了所提方法的有效性。在 COCO 验证集上,当前最优的 Swin-L 骨干网 DINO-Deformable-DETR 的平均精度(AP)从 58.5% 提升至 59.5%。令人惊喜的是,结合 ViT-L 骨干网时,我们的方法在 COCO 测试开发集上达到 66.0% AP,在 LVIS 验证集上达到 67.9% AP,以远更小的模型尺寸显著优于现有方法。代码已开源:https://github.com/Sense-X/Co-DETR

1. 引言

目标检测是计算机视觉领域的基础任务,要求定位目标并识别其类别。具有开创性的 R-CNN 系列 [11,27,14] 及其一系列变体 [30,43,36](如 ATSS [40]、RetinaNet [21]、FCOS [31] 和 PAA [17])推动了目标检测任务的重大突破。一对多标签分配是这些方法的核心方案 —— 每个真实目标框会被分配给检测器输出中的多个坐标作为监督目标,并结合候选区域 [11,27]、锚框 [21] 或窗口中心 [31] 协同工作。尽管这些方法性能优异,但严重依赖许多手工设计的组件,如非极大值抑制(NMS)流程或锚框生成 [1]。

为实现更灵活的端到端检测器,研究人员提出了 DEtection TRansformer(DETR)[1],将目标检测视为集合预测问题,并基于 Transformer 编码器 - 解码器架构引入一对一集合匹配方案。通过这种方式,每个真实目标框仅会被分配给一个特定查询,不再需要多个编码先验知识的手工设计组件。该方法构建了灵活的检测流程,启发了众多 DETR 变体进一步优化性能。然而,原始端到端目标检测器的性能仍不及采用一对多标签分配的传统检测器。

本文致力于在保持 DETR 端到端优势的同时,使其性能超越传统检测器。为应对这一挑战,我们聚焦于一对一集合匹配的直观缺陷:正查询数量过少,这会导致严重的训练低效问题。我们从编码器生成的潜在表示和解码器的注意力学习两个方面进行了详细分析。首先,我们对比了 Deformable-DETR [42] 与一对多标签分配方法(仅将解码器替换为 ATSS 头)的潜在特征判别性得分。我们采用每个空间坐标的 L2 范数表示判别性得分:给定编码器输出 F∈ℝ^(C×H×W),可得到判别性得分图 S∈ℝ^(1×H×W),对应区域得分越高,目标越容易被检测到。如图 2 所示,我们通过对判别性得分设置不同阈值,绘制了前景交并比(IoF)- 背景交并比(IoB)曲线(细节见 3.4 节)。ATSS 的 IoF-IoB 曲线更高,表明其更易区分前景和背景。我们在图 3 中进一步可视化了判别性得分图,显然,一对多标签分配方法中部分显著区域的特征被充分激活,而在一对一集合匹配中这些特征未被充分挖掘。

针对解码器训练的分析中,我们还展示了基于 Deformable-DETR 和 Group-DETR [5](向解码器引入更多正查询)的解码器交叉注意力得分 IoF-IoB 曲线。图 2 结果表明,正查询过少同样会影响注意力学习,增加解码器中的正查询数量可略微缓解这一问题。

这一重要发现促使我们提出一种简单有效的方法 —— 协同混合分配训练方案(Co-DETR)。其核心思路是利用多种一对多标签分配方式,提升编码器和解码器的训练效率与效果。具体而言,我们将辅助头与 Transformer 编码器的输出相结合,这些辅助头可由多种一对多标签分配方式(如 ATSS [40]、FCOS [31] 和 Faster R-CNN [27])监督。不同的标签分配方式丰富了对编码器输出的监督信号,迫使编码器学习足够具有判别性的特征,以支持这些辅助头的训练收敛。为进一步提升解码器的训练效率,我们精心编码这些辅助头中的正样本坐标(包括正锚框和正候选区域),将其作为多组正查询输入原始解码器,预测预分配的类别和边界框。每个辅助头中的正坐标构成独立组,与其他组隔离。多种一对多标签分配方式可引入丰富的(正查询 - 真实目标)对,提升解码器的训练效率。需注意的是,推理时仅使用原始解码器,因此所提训练方案仅在训练阶段引入额外开销。

我们通过大量实验验证了所提方法的效率和有效性。如图 3 所示,Co-DETR 大幅改善了一对一集合匹配中编码器特征学习不足的问题。作为一种即插即用的方法,它可轻松与多种 DETR 变体结合,包括 DAB-DETR [23]、Deformable-DETR [42] 和 DINO-Deformable-DETR [38]。如图 1 所示,Co-DETR 实现了更快的训练收敛和更高的性能:在 12 轮训练中,基础 Deformable-DETR 的 AP 提升 5.8%;在 36 轮训练中,AP 提升 3.2%。当前最优的 Swin-L 骨干网 DINO-Deformable-DETR 在 COCO 验证集上的 AP 从 58.5% 提升至 59.5%。令人惊喜的是,结合 ViT-L [8] 骨干网时,我们的方法在 COCO 测试开发集上达到 66.0% AP,在 LVIS 验证集上达到 67.9% AP,以远更小的模型尺寸构建了新的最优检测器。


2. 相关工作

一对多标签分配

在目标检测的一对多标签分配中,训练阶段多个候选框可被分配给同一个真实目标框作为正样本。在经典的基于锚框的检测器(如 Faster-RCNN [27] 和 RetinaNet [21])中,样本选择由预定义的交并比(IoU)阈值以及锚框与标注框的匹配 IoU 指导。无锚框检测器 FCOS [31] 利用中心先验,将每个边界框中心附近的空间位置分配为正样本。此外,自适应机制被融入一对多标签分配中,以克服固定标签分配的局限性:ATSS [40] 通过统计前 k 个最近锚框的动态 IoU 值,实现自适应锚框选择;PAA [17] 以概率方式将锚框自适应划分为正样本和负样本。本文提出协同混合分配方案,通过由一对多标签分配监督的辅助头,改善编码器表示。

一对一集合匹配

具有开创性的基于 Transformer 的检测器 DETR [1],将一对一集合匹配方案引入目标检测,实现了完全端到端的目标检测。该策略首先通过匈牙利匹配计算全局匹配成本,为每个真实目标框仅分配一个匹配成本最小的正样本。DN-DETR [18] 指出,一对一集合匹配的不稳定性导致训练收敛缓慢,因此引入去噪训练以解决该问题。DINO [38] 继承了 DAB-DETR [23] 的先进查询构建方式,并融入改进的对比去噪技术,实现了当前最优性能。Group-DETR [5] 构建分组式一对多标签分配,挖掘多个正目标查询,这与 H-DETR [16] 中的混合匹配方案类似。与上述后续工作不同,本文从协同优化的新视角出发,优化一对一集合匹配。


5. 结论

本文提出一种新颖的协同混合分配训练方案(Co-DETR),通过多种标签分配方式学习更高效、更有效的基于 DETR 的检测器。该新训练方案通过训练多个由一对多标签分配监督的并行辅助头,可轻松增强端到端检测器中编码器的学习能力。此外,我们从这些辅助头中提取正样本坐标,生成额外的定制化正查询,以提升解码器中正样本的训练效率。在 COCO 数据集上的大量实验验证了 Co-DETR 的效率和有效性。令人惊喜的是,结合 ViT-L 骨干网时,我们的方法在 COCO 测试开发集上达到 66.0% AP,在 LVIS 验证集上达到 67.9% AP,以更小的模型尺寸构建了新的最优检测器。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐