51c深度学习~合集11

最近和大家聊了不少关于数据的话题，特别是在数据隐私和版权日益重要的今天，如何“无米之炊”——在没有原始训练数据的情况下，让AI模型继续发光发热，成了一个热门的方向。它告诉我们，在AI的世界里，有时候“少即是多”，精准的取舍远比大而全的堆砌更加高效。结果显示，相比于使用密集反演数据的方法（如DeepInversion），SMI不仅取得了相当甚至更好的模型精度，同时还大幅提升了数据生成的速度。实验结果

whaosoft-143

744人浏览 · 2025-11-06 04:00:00

whaosoft-143 · 2025-11-06 04:00:00 发布

我自己的原文哦~ https://blog.51cto.com/whaosoft143/14239588

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#xxx

...

#SAM2-UNeXT

SAM2-UNeXT联手DINOv2，双分辨率+密集粘合层，碾压BiRefNet刷新DIS-VD S-measure

SAM2-UNeXT 通过双分辨率策略并行 SAM2 与 DINOv2 编码器，用密集粘合层融合局部细节与全局语义，在四个二值分割基准上刷新 S-measure、mIoU 等指标，代码已开源。

精简阅读版本

本文主要解决了什么问题

SAM模型在某些场景下泛化能力受限的问题，特别是在全局语义上下文捕获方面存在局限。
如何构建更强大且更具泛化能力的编码器以进一步提升分割性能的问题。
传统分割网络通常需要复杂的解码器设计，但一旦知识在编码阶段丢失，就无法在解码阶段完全恢复的问题。
如何高效整合多个基础模型以充分利用它们互补优势的问题。

本文的核心创新是什么

提出了SAM2-UNeXT框架，通过整合辅助的DINOv2编码器扩展了SAM2的表征能力，实现两个基础模型的协同工作。
引入双分辨率策略，让SAM编码器在更高分辨率输入(1024×1024)上运行，而DINOv2编码器处理更低分辨率的输入(448×448)，提高计算效率。
设计了密集粘合层，通过通道对齐、空间调整和特征融合策略有效整合SAM2和DINOv2的特征，实现互补优势。
采用U-Net风格的解码器，并引入额外的部分解码器，提高最终分割特征图的分辨率，有利于边界分割精度敏感的任务。

结果相较于以前的方法有哪些提升

在二值图像分割任务上，在DIS-VD子集上将S-measure提升了1.2%，整体性能优于BiRefNet等先前方法。
在伪装目标检测任务上，在CHAMELEON数据集上将S-measure提升了2.8%，在所有指标上均实现持续改进。
在海洋动物分割任务上，在MAS3K数据集上将mIoU提升了5.4%，显著优于现有方法。
在遥感显著性检测任务上，在ORSI-4199数据集上在S-measure上实现了1.1%的提升，在两个数据集上均优于所有竞争方法。
在各种复杂场景下（如细粒度的树枝、复杂的多目标组合、光照变化以及具有网格结构和阴影干扰的场景）表现出更优的分割精度，有效处理曲线边缘、细小结构和微妙的视觉边界。

局限性总结

双分辨率策略虽然提高了计算效率，但仍然需要处理两个不同分辨率的输入，增加了计算复杂度。
DINOv2编码器的参数被完全冻结，没有进行微调，可能限制了其在特定任务上的适应能力。
模型在所有任务上均以批量大小为1进行训练，可能影响训练效率和模型稳定性。
虽然框架具有可扩展性，但论文中只测试了DINOv2作为辅助编码器，其他类型编码器的效果尚未充分探索。
在更高分辨率配置下(如DINOv2分支使用672×672)，推理成本显著增加，使得这种配置不太实用。

导读

近期研究强调了将Segment Anything Model (SAM)应用于各种下游任务的潜力。然而，构建一个更强大且更具泛化能力的编码器以进一步提升性能仍然是一个开放性挑战。在本工作中，作者提出了SAM2-UNeXT，一个基于SAM2-UNet核心原理的先进框架，通过整合一个辅助的DINOv2编码器扩展了SAM2的表征能力。通过引入双分辨率策略和密集粘合层，SAM2-UNeXT能够在简单架构下实现更精确的分割，减轻了对复杂解码器设计的依赖。在包括二值图像分割、伪装目标检测、海洋动物分割和遥感显著性检测在内的四个基准测试中进行的广泛实验，证明了SAM2-UNeXT具有优越的性能。

代码 https://github.com/WZH0120/SAM2-UNeXT

01 引言

基础模型在计算机视觉、自然语言处理、智能医疗、自动驾驶以及其他领域中正发挥着日益关键的作用。在图像分割领域，Segment Anything模型（SAM）系列引起了广泛关注。传统的较小分割网络通常将大量设计精力投入到复杂的解码器模块中。然而，一个基本局限性依然存在：一旦知识在编码阶段丢失，就无法在解码阶段完全恢复。相比之下，基础模型凭借其庞大的参数容量和复杂的预训练策略来学习高质量的表征，即使采用相对简单的解码器架构也能实现精确的分割性能。

尽管基础模型展现出强大的泛化能力，特定任务的适配，例如参数高效微调（PEFT），对许多下游应用仍然至关重要。近期方法通过将轻量级 Adapter 、LoRA模块或类似组件集成到编码器中，并结合解码器优化策略，取得了显著成果。然而，单纯依赖SAM在某些场景下仍会导致泛化能力受限。例如，在ImageNet分类任务中，SAM编码器的线性 Prob 精度显著低于CLIP和DINOv2等其他大型模型。一个合理的解释是，SAM的类无关分割预训练会导致表征偏差，倾向于捕捉细粒度的局部细节，而忽略了全局语义上下文的捕获。

基于上述分析，作者提出了SAM2-UNeXT，这是一个统一且可扩展的框架，它协同整合了多个基础模型，包括SAM2 和DINOv2，以充分利用它们在细节感知和语义表示方面的互补优势。所提出的SAM2-UNeXT具有以下关键优势：

简洁性。SAM2-UNeXT简化了任何额外的注意力设计，并专注于轻量级且高效的编码器融合策略。

可扩展性。凭借对动态分辨率调整和灵活的辅助编码器配置的支持，SAM2-UNeXT可以方便地适应广泛的下游任务。

有效性。在四个公共基准数据集上的大量实验表明，SAM2-UNeXT在有限的训练轮次下，能够在各种场景中始终实现优异的分割性能。

2 方法

如图1所示，所提出的架构由四个关键组件构成：SAM2编码器、DINOv2编码器、密集粘合层和U-Net风格的解码器。

2.1 SAM2编码器

在这个阶段，作者紧密遵循SAM2-UNet 的实践，从SAM2中采用Hiera 编码器并冻结其所有原始参数。通过在每个Hiera模块之前插入轻量级 Adapter 进行参数高效微调（PEFT）。该 Adapter 采用简单的"MLP-GeLU-MLP-GeLU"结构，具有32通道 Bottleneck 。

2.2 DINOv2编码器

与Segment Anything系列相比，DINOv2作为一个更通用的视觉基础模型，通过自监督学习训练，展现出在广泛视觉任务（包括分类、分割和深度估计）上的强大迁移能力。遵循原始实现方案，作者冻结了所有DINOv2参数，且未采用任何参数高效的微调策略，以平衡训练效率和性能。

2.3 双分辨率设计

将两个大型编码器直接结合的一种简单方法是处理相同分辨率的输入；然而，这种方法在计算上效率低下。特别是对于依赖于标准自注意力机制的DINOv2，提高输入分辨率会导致计算成本大幅增加。考虑到SAM专注于细粒度的局部细节，而DINOv2强调全局语义理解，作者采用双分辨率策略：SAM编码器在更高分辨率的输入上运行，而DINOv2编码器处理更低分辨率的输入

2.4 密集粘合层

与Hiera的层次化设计不同，DINOv2采用的vanilla Vision Transformer 架构在每一层都生成非层次化、尺度一致的嵌入。利用此类transformer特征的一种常见方法是增强层次化编码器的最终特征图。相反，作者采用了一种密集融合策略，该策略灵感来源于DINOv2展现出强大零样本能力的观察：其编码表示在主成分分析后变得高度可解释，无需任何微调即可有效突出感兴趣的前景，换句话说，这些特征可被视为富含全局语义信息的空间注意力图。

基于此，作者首先应用四个1×1卷积来对齐DINOv2特征（DINOv2-L的1024个通道）与SAM2编码器四个阶段的特征（Hiera-L的144、288、576和1152个通道）的通道维度。接下来，将DINOv2特征调整大小以匹配每个相应SAM2特征图的空间维度，并通过简单的通道级拼接进行融合。最后，通过1×1卷积将拼接后的特征压缩至128个通道，以提高训练效率。

2.5 U-Net风格解码器

在这个阶段，作者主要遵循SAM2-UNet的设计，通过将SAM2中的基于transformer的解码器替换为U-Net风格的解码器，其中每个解码器块由两个连续的"Conv-BN-ReLU"层组成。主要区别在于作者引入了一个额外的部分解码器，该解码器不进行特征拼接，从而总共形成四个解码阶段。这种修改将最终分割特征图的分辨率提高到高分辨率输入的一半（而不是四分之一），这对于对边界分割精度敏感的任务是有利的。

03 实验

3.1 数据集和基准测试

作者在涵盖多种分割任务的四个公共基准数据集上进行了实验：

二值图像分割。作者使用DIS5K数据集进行评估。训练集（DIS－TR）包含 3000 张图像，而评估是在五个子集上进行的：DIS－VD（470）、DIS－TE1（500）、DIS5K－TE2（500）、 DIS－TE3（500）和DIS－TE4（500）。性能使用四个指标进行衡量：S度量－、加权 F 度量、平均 E 度量［11］和平均绝对误差（MAE）。

伪装目标检测。作者在四个数据集上进行了评估：CHAMELEON、CAMO、COD10K 和 NC4K。统一训练集包含 4,040 张图像（其中 3,040 张来自 COD10K， 1,000 张来自 CAMO）。其余的 CHAMELEON（ 76 张）、CAMO（ 250 张）、COD10K（ 2,026张）和 NC4K（ 4,121 张）图像用于测试。作者使用 S－measure（）、自适应 F－measure 、平均 E －measure（）和平均绝对误差（MAE）报告结果。

海洋动物分割。该任务使用了两个数据集：MAS3K，包含1，769张训练图像和1，141张测试图像；以及RMAS，包含 2,514 张训练图像和 500 张测试图像。评估基于五个指标：mloU、 S 度量、加权 F 度量、平均 E 度量和平均绝对误差（MAE）。

遥感显著性检测。作者使用了两个数据集：EORssD，包含 1,400 张训练图像和 600 张测试图像；以及ORS1－4199，包含 2,000 张训练图像和 2,199 张测试图像。评估使用了五个指标： S 度量、平均 F 度量（）、最大 F 度量（）、平均 E 度量（）和平均绝对误差（MAE）。

3.2 实现细节

SAM2－UNeXT在PyTorch中实现，并在配备24 GB内存的NVIDIA RTX 4090 GPU上进行训练。作者使用AdamW优化器，初始学习率为 0.0002 ，并应用余弦学习率衰减来稳定训练。整体损失函数由加权交叉嫡损失和加权IoU损失组成。在训练过程中采用了两种数据增强策略，包括随机水平墥转和垂直翻转。除非另有说明，作者采用SAM2和DINOv2的大版本。SAM2分支的输入分辨率设置为，DINOv2分支的输入分辨率设置为。所有模型在所有任务上均以批量大小为1进行20个epoch的训练。

3.3 与当前最先进方法比较

在本小节中，作者首先分析了跨多个基准的定量结果，随后对二元图像分割进行了定性的视觉比较。

二值图像分割。结果如表1所示，SAM2-UNeXT在第二优方法BiRefNet之上实现了稳定的性能提升。具体而言，在DIS-VD子集上，SAM2-UNeXT将S-measure提升了1.2%。

伪装目标检测。结果如表2所示。与SAM2-UNet相比，新的SAM2-UNeXT在所有指标上均实现了持续改进。例如，在CHAMELEON数据集上，SAM2-UNeXT将S-measure提升了2.8%。

海洋动物分割。结果如表3所示。SAM2-UNeXT在现有方法中显著表现优异。例如，在MAS3K数据集上，SAM2-UNeXT将mIoU提升了5.4%。遥感显著性检测。结果如表4所示。SAM2-UNeXT在两个数据集上均优于所有竞争方法。值得注意的是，在ORSI-4199数据集上，SAM2-UNeXT在S-measure上实现了1.1%的提升。

定性比较。图2展示了在二元图像分割任务上的视觉比较。SAM2-UNeXT在多种场景中表现出更优的分割精度：细粒度的树枝（第1行）、复杂的多目标组合（第2行）、光照变化（第3行）以及具有网格结构和阴影干扰的场景（第4行）。SAM2-UNeXT有效处理曲线边缘、细小结构和微妙的视觉边界，即使在具有挑战性的条件下也能提供更好的分割结果。

3.4 讨论

在本节中，作者以MAS3K作为代表性基准，分析了SAM2-UNeXT的设计选择。

辅助编码器的影响

作者研究了不同辅助编码器设计的影响，如表5所示：

第一行辅助编码器被移除。在这种情况下，模型大致成为SAM2-UNet的高分辨率变体。尽管其性能优于SAM2-UNet的低分辨率版本，但其准确率仍低于带有辅助编码器的配置。

第2行和第3行。作者使用ResNet-101 PVTv2-b5 作为辅助编码器，其参数可训练。结果表明，与不使用辅助编码器的设置相比，改进效果微乎其微，这表明在简单的融合策略下，这些传统 Backbone 网络带来的好处有限。

第4行和第5行。作者将辅助编码器替换为冻结的小型和基础版本的DINOv2。结果表明，较大的变体通常能获得更好的性能。

动态分辨率的影响

作者还探讨了不同分辨率组合的影响，如表6所示：

第一行. SAM2和DINOv2编码器均在统一的低分辨率352×352下运行。这一设置导致在所有测试配置中性能最低，尽管它仍然优于原始的SAM2-UNet Baseline。

第2行。SAM2分支的高分辨率固定为1024×1024，而DINOv2分支的低分辨率降低至224×224。与448×448设置相比，观察到轻微的性能下降，但它仍然优于均匀的352×352情况。

第3行。高分辨率保持在1024×1024，而低分辨率增加到672×672。与448×448设置相比，性能差异可以忽略不计，但推理成本显著增加，使得这种配置不太实用。

4 相关工作

4.1 融合基础模型

近年来，整合不同基础模型已成为一种常见策略。许多视觉语言模型（Vision-Language Models, VLMs）由一个视觉编码器与一个大语言模型（Large Language Model, LLM）配对组成，能够根据不同应用需求进行灵活组合。对于SAM系列，已有若干研究通过整合CLIP来提升语言理解能力。其他研究则聚焦于通过集成预训练视觉编码器（如DINOv2 ）来增强少样本分割能力，以Matcher 为例。与作者研究最相关的是，该研究同样引入了一个辅助DINOv2编码器来构建U型架构。然而，他们的重点在于设计更复杂的解码器结构，例如内容引导注意力机制和小波卷积。

4.2 图像分割

图像分割被视为像素级分类任务，可以广泛分为二值分割、语义分割、实例分割和全景分割等类别。本研究聚焦于二值分割，其中所有前景像素被分配到单一类别，其余像素被视为背景。二值分割是许多重要应用领域的基础，包括二值图像分割、伪装目标检测、海洋动物分割以及遥感显著性检测。现有方法大多倾向于为每种分割场景设计特定的解码器。相比之下，SAM2-UNeXT引入了一个统一框架，该框架能够通过单一模型架构在多个二值分割任务中实现最先进性能。

5 结论

本文介绍了SAM2-UNeXT，一个简单而有效的框架，通过解耦分辨率策略将两个强大的基础模型SAM2和DINOv2进行整合。该设计利用了每个模型的互补特征偏差，从而提升了分割性能。在四个基准数据集上的大量实验验证了该方法的有效性和泛化能力。此外，SAM2-UNeXT具有高度可定制性，非常适合适应各种下游任务。通过调整动态分辨率配置或结合替代的辅助编码器，该框架有望将基于SAM2的模型扩展到此前未充分探索的分割场景。

参考

[1]. SAM2-UNeXT: An Improved High-Resolution Baseline for Adapting Foundation Models to Downstream Segmentation Tasks

...

#Sparse Model Inversion

清华&南洋理工等提出稀疏模型反演：ViT反演加速高达3.79倍，告别无效背景！

最近和大家聊了不少关于数据的话题，特别是在数据隐私和版权日益重要的今天，如何“无米之炊”——在没有原始训练数据的情况下，让AI模型继续发光发热，成了一个热门的方向。今天，我们就来深入探讨一篇非常有意思的工作，来自清华大学（深圳）、南洋理工大学、中山大学等机构的研究者们提出的《Sparse Model Inversion: Efficient Inversion of Vision Transformers for Data-Free Applications》。

这篇论文的核心，在于解决一个叫做“模型反演”（Model Inversion）的技术难题。简单来说，模型反演就像是AI世界的“读心术”，它试图从一个已经训练好的模型里，反向推导出当初用来训练它的数据长什么样。这项技术在很多“无数据”场景下特别有用，比如模型压缩、知识迁移等等。但问题是，现有方法在处理像Vision Transformer（ViT）这样的大模型时，效率非常低下。

而这篇论文提出的稀疏模型反演（Sparse Model Inversion, SMI），就是一把锋利的“手术刀”，它能精准地剔除反演过程中的冗余信息，让整个过程变得又快又好，实现了最高3.79倍的加速！

下面，我们一起来看看这项工作的基本信息。

论文标题: Sparse Model Inversion: Efficient Inversion of Vision Transformers for Data-Free Applications
作者团队: Zixuan Hu, Yongxian Wei, Li Shen, Zhenyi Wang, Lei Li, Chun Yuan, Dacheng Tao
所属机构: 清华大学（深圳）、南洋理工大学、中山大学、京东探索研究院、马里兰大学帕克分校
论文地址: https://arxiv.org/abs/2510.27186
代码仓库: https://github.com/Egg-Hu/SMI

现有方法错在哪？“全面反演”的低效困境

想象一下，让你根据记忆画一幅画，画的核心是一只猫，但你却花费了大量精力去描绘猫后面那堵纯白的墙和杂乱的背景。这显然是低效的。

传统的“密集”模型反演（Dense Model Inversion）方法就面临着类似的窘境。它们试图重建图像的每一个像素，不分主次。作者一针见血地指出了这种策略的两个核心弊病：

冗余的背景反演：模型在反演时，会浪费大量计算资源去生成那些对语义理解毫无帮助的背景噪声。
意外的“幻觉”：模型在训练时可能会学到一些虚假的关联，比如“牛总是出现在草地上”。在反演时，模型会“脑补”出这些背景，产生所谓的“幻觉”（Hallucination）现象，这不仅影响效率，还可能干扰下游任务。

上图很直观地展示了密集反演的弊端：不仅要费力处理（a）中无意义的背景，还要应对（b）中模型自己“脑补”出来的虚假前景-背景关联。

实验数据也证实了这一点：在反演过程中，背景区域对分类损失的降低贡献微乎其微。这意味着，计算资源被大量错配了。

稀疏之美：只反演“重要”的部分

既然问题找到了，解法也就清晰了：我们能不能只反演那些包含核心语义信息的“前景”区域，而忽略掉无关紧要的“背景”呢？

这正是SMI的核心思想。它像一个聪明的艺术家，懂得在创作时有所取舍，聚焦于最重要的主体。

SMI的实现方式非常巧妙，它是一个即插即用的模块，无需修改现有反演方法的损失函数。其具体流程如下：

输入与输出：SMI的输入是一个预训练好的ViT模型和一个目标类别（比如“猫”），输出则是一张仅包含核心语义信息的稀疏图像。
重要性评估：在反演的每个阶段，SMI会评估图像中每个patch（小块）的重要性。作者发现，一个简单的基于分类损失的策略就非常有效：如果某个patch的移除不会显著增加模型的分类损失，那么它很可能就是不重要的背景。
渐进式停止：SMI并不会一次性丢掉所有背景，而是采用一种“渐进式”的策略。在反演过程中，它会分阶段地、逐步地“冻结”那些被判定为不重要的patch，不再对它们进行梯度计算和更新。

上图清晰地展示了SMI的完整流程。随着反演的进行，越来越多的背景patch（黑色块）被“停用”，计算资源被集中用于优化真正的前景patch。最终，我们得到一张稀疏但信息量十足的图像。

xxx觉得，这种“渐进式剪枝”的思路非常优雅，它在计算效率和生成质量之间找到了一个绝佳的平衡点。

效果如何？又快又好！

理论说得再好，终究要靠实验结果说话。SMI在两个主流的无数据应用场景——模型量化和知识迁移中，都表现出了卓越的性能。

无数据模型量化

在模型量化任务中，研究者使用SMI生成的稀疏数据来校准量化参数。结果显示，相比于使用密集反演数据的方法（如DeepInversion），SMI不仅取得了相当甚至更好的模型精度，同时还大幅提升了数据生成的速度。

从上表中可以看到，加速效果实现了2.57至3.79倍，同时计算量（FLOPs）降低74.09%-75.62%，GPU内存占用减少57.42%-62.98%。

无数据知识迁移

在知识迁移（也称知识蒸馏）任务中，目标是让一个小模型（学生）学习一个大模型（教师）的能力。SMI生成的稀疏数据同样胜任了这一任务。

实验结果表明，使用SMI生成的稀疏数据进行训练，学生模型的性能与使用密集数据相当，但训练过程的收敛速度更快，效率更高。

上图的对比曲线非常能说明问题：在训练损失（左）和验证精度（右）上，使用稀疏数据（蓝色曲线）的收敛速度明显优于密集数据（橙色曲线）。

作者还展示了SMI从不同模型和数据集中反演出的图像，效果相当惊艳，无论是自然图像还是细粒度的花卉、鸟类，SMI都能准确捕捉到核心特征。