文章来自AAAI2026:[2504.06220] Earth-Adapter: Bridge the Geospatial Domain Gaps with Mixture of Frequency Adaptationhttps://arxiv.org/abs/2504.06220

一、问题背景:

在使Vision Foundation Models(VFM)适应下游任务时,关键的挑战是如何有效地保留和释放(preserve and unleash)其固有的功能,在这种情况下,参数有效微调(PEFT)方法由于其上级参数性能权衡而成为关键解决方案。

但是,视觉基础模型(VFM)虽然功能强大,但在与现有的PEFT方法相结合时,在遥感(RS)分割任务中往往会遇到困难,这种限制主要是由于他们无法有效地处理在RS图像中普遍存在的伪影(artifacts)

在自然图像中,伪影通常围绕前景对象,如人类或动物,它们引起的干扰相对有限。相比之下,RS图像由于其俯视视角,缺乏集中的主体,并且包含多个共存的多尺度目标。例如,一幅遥感图像可能同时包含大规模的农业区和破碎的道路网,因此,很多遥感图像中几乎到处都是伪影,对分割任务的关键像素级特征提取造成严重干扰。

二、解决方案

文章所提出的Earth-Adapter:

这是专门解决RS图像中的伪影缓解(RS artifact mitigation)问题的第一个PEFT方法。

Earth-Adapter引入了一种新的频率引导混合适配器(Frequency-Guided Mixture of Adapters)方法,围绕“分而治之(divide and conquer)”策略构建。

首先利用离散傅立叶变换(Discrete Fourier Transformation,DFT)将特征“划分”(divide )为不同的频率分量,高频信号(HF)捕获局部细节而低频信号(LF)编码全局结构的观察,从而有效地将伪影相关信息与语义信号隔离。

随后,为了“克服”(conquer)这些伪影,MoA(Mixture of Adapters)独立优化不同子空间内的特征,并通过路由器动态分配权重以聚合细化的表示,并通过跳跃连接和动态缩放系数将聚合后的特征与原始冻结的VFM特征进一步结合,保持了底层模型强大的特征提取能力。

这种简单而高效的PEFT方法明显减轻了伪影,并显着提高了VFM在RS分割任务上的性能。

三、具体过程

对于网络架构,使用DINOv2-L作为backbone,记为fϕ,使用Mask2Former作为decoder,记为fθ。在使用EarthAdapter之前,微调VFM的优化目标是确定一组参数,以最小化下游任务上整个模型的损失:

在加入Earth-Adapter后,优化目标变为:

Earth-Adapter由两个关键部件组成:MoADynamic Router。

(1)MoA 混合适配器(Mixture of Adapters)

频率适配通过并行处理流进行操作:

空间适配器

采用低秩投影来细化空间特征:

其中Fi表示来自backbone的第i层的视觉特征,Adapter1表示由两个低秩矩阵和激活函数组成的非线性映射层:

②频率适配器

HF适配器(高频子空间)和LF适配器(低频子空间)组成,它们对从2D离散傅立叶变换(DFT)分解中导出的特定频率子空间中的特征进行微调。

首先将空间特征F整形为(C,H,W),并将DFT应用于空间特征,记为FT(F)。当分裂频域时,我们使用固定的频率截止ρ将频谱分解为高频低频分量。随后,这些分量通过傅里叶逆变换(IFT)转换回特征,产生LF和HF特征

其中,划分高、低频的频率掩码M如下定义:

此后,LF和HF特征独立地通过两个不同的低秩线性投影层,生成频率自适应调整:

其中的Adapter与①中的空间适配器具有相同的结构,两个低秩矩阵和激活函数。

(2)Dynamic Router

模型通过一个路由器来实现动态特征聚合,该路由器根据原始视觉特征来学习特征调整的最佳组合

路由器权重由通道注意力计算:

其中wi分别表示空间、LF和HF分量的权重,所以最终特征调整计算如下:

其中αi是具有小初始值的可学习缩放参数,k ∈ {spatial,low,high},表示空间、LF和HF分量。

最后,将冻结特征和细化特征通过跳过连接融合:

融合后的Fi会被转发到后续的Transformer块以继续逐层处理。

四、实验

本文在几个广泛使用的RS图像分割数据集上进行所有实验:Potsdam , Vaihingen, LoveDA, iSAID。

同时,构建了四个语义分割(SS)基准:Potsdam(P)、Vaihingen(V)、LoveDA(L)、iSAID(i),沿着四个领域适应(DA)和四个领域概括(DG)任务:Potsdam到Vaihingen(P2V)、Vaihingen到Potsdam(V2P)、Rural to Urban农村到城市(R2U)、Urban to Rural 城市到农村(U2R)。

本文的模型使用Dinov2-Large作为编码器来提取特征,这些特征随后被用作解码器的输入,使用Mask 2former作为解码器。

①首先,对现有的主流PEFT方法和SOTA方法进行了比较分析

②对四个SS基准进行了比较

关于PEFT相关方法,传统方法(如LoRA和AdaptFormer)难以适应遥感图像的特性,经常在微调期间破坏VFM的表示,最终导致性能不佳。相比之下,Earth-Adapter在所有PEFT方法中始终实现了最佳性能。

③不同主干的消融

除了表1和表2中使用的DINOv2-Large主干之外,还进一步评估了其他DINOv2变体。ViT-Small和ViT-Base的结果(表3,第3-8行)。表明Earth-Adapter在不同尺度的主干上持续提高性能。

同时,还测试了在遥感数据上预训练的VFM,包括MTP-Large、ScaleMAE-Large和DOFA-Large。Earth-Adapter再次在分割性能方面提供了稳定的改进。

最后,比较观察到DINOv2模型优于那些在遥感数据上预先训练的模型,可能是因为后者是在较小规模的数据集上训练的,因此仍然不太成熟。

④部件有效性消融

与空间适配器相比,仅使用HF或LF适配器会降低性能,HF会导致更大的下降。这是因为其中HF特征具有更多的伪影和噪声,而LF特征是平滑的,具有清晰的全局语义。因此,仅使用HF严重损害性能,结果为50.9%mIoU,低于空间特征56.9%mIoU。之后,本文还对空间适配器的数量进行了更多的实验,并揭示了最佳组合是一个空间适配器与一个高频和低频适配器。

⑤预测可视化分析

值得注意的是,在U2 R(DG)示例中,Rein的预测比原始主干差,这意味着Rein不能很好地适应RS图像,这导致主干特征受到负面影响。相反,在主干的基底上,Earth-Adapter保留了主干特征的良好细节,并进一步优化了农业类的表示。

在其他实验中,Earth-Adapter也表现出比Rein和Frozen backbone更好的预测能力,表现出更高的性能上限。

⑥特征可视化分析

对P2V(DG)和R2U(DG)基准测试上的三个适配器捕获的特征进行了可视化。可以看出,LF特征侧重于粗粒度和全局语义,而HF特征显示了详细的表示。

特征是三个不同频率特征的加权和,PCA可视化清晰地显示了每个特征的特征,以图中的P2V为例,伪影几乎被过滤到高频特征中(显示在“HF PCA”中),所有特征的动态融合确保最终聚合特征的PCA保持清晰的语义边缘并成功过滤掉伪影。这些可视化进一步增强了Earth-Adapter的可解释性。

⑦性能-速度权衡分析

通过比较了FFT,Rein和Earth-Adapter之间的参数,速度和性能,发现在与Rein接近的训练和推理速度的同时,EarthAdapter实现了更好的性能(mIoU提高9.0%),参数范围更小。这进一步证实了Earth-Adapter的效率,这可以归因于其简单而有效的设计方法,使其特别适合于遥感图像的语义分割任务。

⑧动态路由器的消融

如表6所示,动态路由器的使用带来了更好的结果,在两个DG基准测试中平均提高了1.6%的mIoU。与静态权重(每个静态路由分配1/3的权重)相比,动态路由器可以自适应地调整特征分配权重,从而实现更有效的表示优化。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐