Paper:https://arxiv.org/pdf/2601.02763

Code:https://github.com/House-yuyu/ClearAIR

Baseline:Restormer


前言

问题: 然而,这些AiOIR方法忽略了一个关键问题:空间上的非均匀退化会显著改变图像的局部统计特性。大多数现有的AiOIR方法在整个图像上应用了统一的处理策略,没有考虑到不同区域之间退化分布和严重程度的差异。

动机: 在视觉认知方面,人类表现出特定的特征。通常,视觉图像首先被视为一个统一的整体,然后再根据其组成部分进行分析。

我们的目标是利用 MLLM 挖掘多模态线索的强大能力,将它们用作整体图像质量的初始估计器。

贡献:我们设计了一种受人类视觉感知(HVP)启发的渐进式恢复pipeline,该 pipeline 从全局结构到精细的局部细节分层地细化图像质量。

首先,与早期强调全局结构的HVP阶段一样,我们集成了一个基于MLLM的 图像质量评估(IQA)模型来评估图像的整体质量。

其次,为了更好地解释退化模式在空间上的变化,我们加入了一个语义指导单元(SGU)来支持区域级分割,并为识别可能受退化影响的区域提供粗略的指导。

第三,在SGU空间线索的指导下,我们应用 任务识别符(task identifier)来估计局部邻域中的主要退化类型。这使ClearAIR能够自适应地选择适合区域的恢复策略,避免在整个图像中进行统一的一刀切处理。

最后,为了提高细粒度局部细节的恢复能力,我们提出了一种利用内部图像统计来细化局部结构的内部线索重用机制(ICRM)


Methodology

1. Overall Pipeline

ClearAIR由四个组件组成:

1) MLLM-based IQA:它从视觉和文本标记中嵌入评分,通过 质量指导模块(QGM) 指导恢复骨干。

2) Semantic Guidance Unit (SGU):提供区域级语义掩码,通过语义交叉注意 (Semantic Cross-Attention, SCA) 融合特征。

3) Task Identifier:它估计主要的退化类型,并将此预测编码为退化感知模块(DAM)使用的退化提示符。

4) Internal Clue Reuse Mechanism (ICRM):利用自监督学习提取图像内部线索,增强细节重建。整个过程的优化目标可表示为:

2. Overall Assessment

受早期 HVP 阶段 (强调全局结构线索) 的启发,我们采用了 MLLM-IQA 模型来评估输入图像的整体质量。如图 2 所示,使用视觉编码器将输入图像编码为视觉符号。此外,一个视觉 abstractor 被用作连接器模块的一部分,它进一步压缩了视觉标记。最后,将视觉和文本标记融合并送到大型 MLLM 中用于响应预测。

我们从 “quality level” 令牌之前的层提取 状态 Q。这种表示更忠实地捕获了 MLLM-IQA 模型关于图像质量的基本推理。

3. Region Awareness

我们设计了一个 region awareness pipeline 来支持区域级分割,并为定位可能受到退化影响的区域提供粗略的指导。具体来说,我们引入 SGU,它利用了预训练的 Segment Anything Model (Ravi et al. 2024Rong et al. 2025) 提取高级语义。给定降级的图像, SGU生成二进制掩码:

其中,每个掩码突出了一个不同的区域。这些掩码通过 掩码平均池化(MAP) 与浅层特征相结合。对于每个掩码,我们计算掩码区域内的平均特征并将其广播回来:

其中,,输出编码语义感知的结构先验。

为了增强对由退化严重程度或模型规模引起的 Mask 质量波动的鲁棒性我们在训练期间引入了掩码dropout,去除掩码的随机子集并将其区域合并到背景中。

最后,通过 SCA 与恢复主干交互,在恢复过程中启用区域级语义指导。这个过程可以表示为:

4. Task Recognition

在这一部分中,我们主要预测局部退化类型,从而能够更明智地表征区域级退化模式。具体来说,我们使用DA-CLIP 作为 Task Identifier 来生成内容嵌入和退化嵌入。然后将退化嵌入转化为退化提示符,其可表示为:

其中,为一组可学习提示。随后,将特征输入到 DAM 中,实现内容感知空间增强的交叉注意。

同时,我们基于生成一个退化 mask M_d \in \mathbb{R}^{1\times h\times w},然后利用对特征进行调制。这个过程可以描述如下:

5. Internal Clue Reuse Mechanism

如图 3 所示,我们引入 ICRM 来增强模型在恢复图像中保留细节的能力。为了实现这一点,我们对恢复的输出应用不同强度的数据增强。首先,对进行弱增广,公式为:

随后,对进行强增,可表示为:

最后,我们计算弱增广结果和强增广结果之间的L2距离,形成内部一致性:

其中,γ 是一个控制损失权重的超参数。在我们的实验中,我们设置 γ 的初始值= 0.05。

实验设置

我们采用DeQA 作为 MLLM-IQA 模型,并选择 Restormer 作为修复主干。具体来说,从1级到4级,提示Transformer 块(PTB)的数量设置为[3,5,6,8],注意头为[1,2,4,8],通道尺寸为[48,96,192,384]。我们使用AdamW (β1 = 0.9, β2 = 0.999)优化网络,学习率为,批大小为4。训练运行 300K 次迭代。总损失权重设为。所有实验均在 NVIDIA GeForce RTX 4090 gpu 上进行。在训练过程中,输入被随机裁剪为 256×256块,随机水平和垂直翻转用于数据增强。

All-in-One Image Restoration Results

1. Three Degradations Task

2. Five Degradations Task

3. All-Weather Task

4. Composited Degradation Task

Ablation Study

1. Effects of Perception Order

表6 所示,Where-What-How 顺序产生最差的性能。这可能是因为感知区域级语义信息首先破坏了结构完整性,而结构完整性对于粗糙的质量评估至关重要。

2. Effects of Different Components

Conclusion

在本文中,我们提出了一种新的AiOIR框架ClearAIR,该框架受到 HVP 的启发,并采用了从粗到精的分层恢复策略。通过模仿 HVP 先感知图像整体再关注局部细节的倾向,我们的方法集成了整体评估、区域感知、任务识别和内部线索重用机制,以实现细粒度恢复。基于MLLM的图像质量评估模型、语义指导单元和任务识别器的组合使得能够准确地定位和理解退化模式。此外,提出的内部线索重用机制增强了模型以自我监督的方式恢复细节纹理的能力。


声明:若论文中有理解有误的地方,欢迎大家批评指正。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐