小样本目标检测学习2

ETS 通过“先动态增广扩大域覆盖，再网格搜索锁定最优子域”，让 Grounding-DINO 在 10-shot 跨域检测上直接提升 5+ AP，且几乎零额外标注，为视觉-语言大模型在数据稀缺环境下的即插即用提供了新范式。

清风吹过

845人浏览 · 2025-12-28 15:49:27

清风吹过 · 2025-12-28 15:49:27 发布

Enhance Then Search: An Augmentation-Search Strategy with Foundation Models for Cross-Domain Few-Shot Object Detection

一、研究背景

Cross-Domain Few-Shot Object Detection（CD-FSOD）要求模型在源域（如 COCO）预训练后，仅用极少目标域样本（1～30 张）就能检测完全不同场景（无人机、水下、医疗等）的新类别。

传统做法：直接对 Grounding-DINO 等视觉-语言基础模型做 few-shot fine-tune，但目标域样本稀缺 → 极易过拟合，且不同域间颜色、尺度、背景差异巨大，性能下降明显。
关键痛点：
1. 数据增广“怎么增”——增广过强会扭曲跨域语义，增广不足又无法覆盖域差异；
2. 超参/子域空间“如何搜”——目标域无足够验证集，网格搜索代价高，且容易在 test-time 失效。

二、现有研究局限

方法不足
固定增广策略（Copy-Paste、RandAug）在跨域场景下不稳定，可能引入域冲突，反而降低 AP。

无验证集或全注释验证目标域标注极少，全注释代价高；无验证集则无法可靠调参。

纯微调或 prompt tuning 仅利用基础模型内部表征，未系统探索“增广 × 子域”联合空间，上限未知。

三、本文创新点（ETS 框架）

Enhance：动态混合增广管道

提出 CachedMosaic + YOLOXHSVRandomAug + CachedMixUp + RandomFlip/Resize/Crop 的可配置概率组合，在每次 mini-batch 随机采样，兼顾多样性与域相关性。
- 实验发现 Copy-Paste 在 CD-FSOD 中引入语义混淆，被主动弃用。
Search：网格-子域搜索 + 粗粒度验证

仅用目标域 test-set 的 10% 做验证，且标注为粗粒度类别（如“fruit”代替“apple/pear”），大幅降低标注成本；同时保证

ℙ_T^{val(x)≈ℙ_T}test(x)，使验证性能成为无偏代理。

在 {学习率 × 增广强度 × 顺序概率} 三维网格上搜索最优配置 θ，实现零重训的即插即用。
理论保证

证明在域迁移条件下，验证集误差与测试集误差之差以 O(1/√m) 速率收敛（m 为验证样本数），给出所需最少验证图量下限，保证搜索可靠性。

四、实验结果（Benchmark SOTA）

设定基线 (Grounding-DINO) ETS 绝对提升
NTIRE2025 CD-FSOD Track-1 10-shot 18.7 AP 24.1 AP +5.4

Track-2 30-shot 22.3 AP 27.6 AP +5.3

水下 D-UAV 1-shot 9.8 AP 14.5 AP +4.7

医疗 CT-ORG 5-shot 15.6 AP 19.4 AP +3.8

跨架构一致：Swin-B、Swin-L、ViT-B 均提升 3～6 AP。
消融实验：去掉搜索 −3.1 AP，去掉混合增广 −2.5 AP，二者正交。
效率：搜索阶段仅用 ≈0.4 GPU-day，相比全网格搜索节省 80% 计算。

五、研究意义

方法层面：首次把“增广”与“子域搜索”显式耦合，形成可复现的 CD-FSOD 通用 pipeline，无需修改模型结构即可插入任何视觉-语言基础模型。
实用层面：在数据极度稀缺场景（医疗、无人机、水下）提供零重训部署方案，降低标注与计算成本。
社区资源：代码与全套增广/搜索配置已开源（https://github.com/jaychempan/ETS），可直接用于 NTIRE2025 后续研究或工业落地。
理论层面：给出粗粒度验证集的泛化误差界，为“小样本 + 跨域”调参提供理论依据。

六、一句话总结

https://arxiv.org/abs/2504.04517

https://arxiv.org/html/2504.04517v1

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Stable Diffusion加chilloutmixni真人图片生成模型

摘要：本文介绍了Stable Diffusion AI绘画模型的最新进展，重点讲解了基于WebUI的可视化操作界面stable-diffusion-webui的安装和使用方法。文章详细说明了如何通过Google Colab环境配置GPU资源，下载并运行Stable Diffusion V2.1版本及其衍生模型chilloutmixni（真人图片生成模型）。同时介绍了模型文件的存放路径、依赖库安装等

2048 AI社区

2026年03月05日 AI前沿资讯日报

每天早间5分钟，帮你掌握昨日AI行业最新动态。

2048 AI社区

2026年 Claude Code vs Codex 深度对比：AI编程助手终极PK

作为程序员，你可能已经离不开AI编程助手了。和是当前最火的两款产品，到底该选哪个？今天从多个维度彻底对比！开发者：Anthropic发布时间：2025年核心特点：主打「程序员最好的朋友」，强调代码理解和生成能力免费额度：个人开发者免费维度Codex胜者代码理解⭐⭐⭐⭐⭐⭐⭐⭐⭐补全速度⭐⭐⭐⭐⭐⭐⭐⭐⭐Codex命令行⭐⭐⭐⭐⭐⭐⭐生态⭐⭐⭐⭐⭐⭐⭐⭐Codex价格⭐⭐⭐⭐⭐⭐⭐免费额度✅❌。