小样本目标检测学习2
ETS 通过“先动态增广扩大域覆盖,再网格搜索锁定最优子域”,让 Grounding-DINO 在 10-shot 跨域检测上直接提升 5+ AP,且几乎零额外标注,为视觉-语言大模型在数据稀缺环境下的即插即用提供了新范式。
Enhance Then Search: An Augmentation-Search Strategy with Foundation Models for Cross-Domain Few-Shot Object Detection
一、研究背景
Cross-Domain Few-Shot Object Detection(CD-FSOD)要求模型在源域(如 COCO)预训练后,仅用极少目标域样本(1~30 张)就能检测完全不同场景(无人机、水下、医疗等)的新类别。
- 传统做法:直接对 Grounding-DINO 等视觉-语言基础模型做 few-shot fine-tune,但目标域样本稀缺 → 极易过拟合,且不同域间颜色、尺度、背景差异巨大,性能下降明显。
- 关键痛点:
- 数据增广“怎么增”——增广过强会扭曲跨域语义,增广不足又无法覆盖域差异;
- 超参/子域空间“如何搜”——目标域无足够验证集,网格搜索代价高,且容易在 test-time 失效。
二、现有研究局限
方法 不足
固定增广策略(Copy-Paste、RandAug) 在跨域场景下不稳定,可能引入域冲突,反而降低 AP。
无验证集或全注释验证 目标域标注极少,全注释代价高;无验证集则无法可靠调参。
纯微调或 prompt tuning 仅利用基础模型内部表征,未系统探索“增广 × 子域”联合空间,上限未知。
三、本文创新点(ETS 框架)
-
Enhance:动态混合增广管道
提出 CachedMosaic + YOLOXHSVRandomAug + CachedMixUp + RandomFlip/Resize/Crop 的可配置概率组合,在每次 mini-batch 随机采样,兼顾多样性与域相关性。
- 实验发现 Copy-Paste 在 CD-FSOD 中引入语义混淆,被主动弃用。
-
Search:网格-子域搜索 + 粗粒度验证
仅用目标域 test-set 的 10% 做验证,且标注为粗粒度类别(如“fruit”代替“apple/pear”),大幅降低标注成本;同时保证
ℙ_Tval(x)≈ℙ_Ttest(x),使验证性能成为无偏代理。
在 {学习率 × 增广强度 × 顺序概率} 三维网格上搜索最优配置 θ,实现零重训的即插即用。
-
理论保证
证明在域迁移条件下,验证集误差与测试集误差之差以 O(1/√m) 速率收敛(m 为验证样本数),给出所需最少验证图量下限,保证搜索可靠性。
四、实验结果(Benchmark SOTA)
设定 基线 (Grounding-DINO) ETS 绝对提升
NTIRE2025 CD-FSOD Track-1 10-shot 18.7 AP 24.1 AP +5.4
Track-2 30-shot 22.3 AP 27.6 AP +5.3
水下 D-UAV 1-shot 9.8 AP 14.5 AP +4.7
医疗 CT-ORG 5-shot 15.6 AP 19.4 AP +3.8
- 跨架构一致:Swin-B、Swin-L、ViT-B 均提升 3~6 AP。
- 消融实验:去掉搜索 −3.1 AP,去掉混合增广 −2.5 AP,二者正交。
- 效率:搜索阶段仅用 ≈0.4 GPU-day,相比全网格搜索节省 80% 计算。
五、研究意义
- 方法层面:首次把“增广”与“子域搜索”显式耦合,形成可复现的 CD-FSOD 通用 pipeline,无需修改模型结构即可插入任何视觉-语言基础模型。
- 实用层面:在数据极度稀缺场景(医疗、无人机、水下)提供零重训部署方案,降低标注与计算成本。
- 社区资源:代码与全套增广/搜索配置已开源(https://github.com/jaychempan/ETS),可直接用于 NTIRE2025 后续研究或工业落地。
- 理论层面:给出粗粒度验证集的泛化误差界,为“小样本 + 跨域”调参提供理论依据。
六、一句话总结
-
ETS 通过“先动态增广扩大域覆盖,再网格搜索锁定最优子域”,让 Grounding-DINO 在 10-shot 跨域检测上直接提升 5+ AP,且几乎零额外标注,为视觉-语言大模型在数据稀缺环境下的即插即用提供了新范式。
-
https://arxiv.org/abs/2504.04517
-
https://arxiv.org/html/2504.04517v1
更多推荐
所有评论(0)