ClearAIR: A Human-Visual-Perception-Inspired All-in-One Image Restoration-AAAI2026

本文提出ClearAIR框架，一种受人类视觉感知启发的渐进式图像恢复方法。针对现有方法忽视空间非均匀退化的问题，该框架通过四个关键组件实现分层恢复：1)基于MLLM的整体质量评估；2)语义指导单元提供区域级分割；3)任务识别器估计局部退化类型；4)内部线索重用机制增强细节重建。实验表明，该方法在多种退化任务中优于基线模型Restormer。消融研究验证了感知顺序和组件组合的有效性。该工作通过模拟人

JoYcE

648人浏览 · 2026-02-01 22:08:59

JoYcE · 2026-02-01 22:08:59 发布

Paper：https://arxiv.org/pdf/2601.02763

Code：https://github.com/House-yuyu/ClearAIR

Baseline：Restormer

文章目录

前言

Methodology

1. Overall Pipeline

2. Overall Assessment

3. Region Awareness

4. Task Recognition

5. Internal Clue Reuse Mechanism

实验设置

All-in-One Image Restoration Results

1. Three Degradations Task

2. Five Degradations Task

3. All-Weather Task

4. Composited Degradation Task

Ablation Study

1. Effects of Perception Order

2. Effects of Different Components

Conclusion

前言

问题：然而，这些AiOIR方法忽略了一个关键问题：空间上的非均匀退化会显著改变图像的局部统计特性。大多数现有的AiOIR方法在整个图像上应用了统一的处理策略，没有考虑到不同区域之间退化分布和严重程度的差异。

动机： 在视觉认知方面，人类表现出特定的特征。通常，视觉图像首先被视为一个统一的整体，然后再根据其组成部分进行分析。

我们的目标是利用 MLLM 挖掘多模态线索的强大能力，将它们用作整体图像质量的初始估计器。

贡献：我们设计了一种受人类视觉感知(HVP)启发的渐进式恢复pipeline，该 pipeline 从全局结构到精细的局部细节分层地细化图像质量。

首先，与早期强调全局结构的HVP阶段一样，我们集成了一个基于MLLM的 图像质量评估(IQA)模型来评估图像的整体质量。

其次，为了更好地解释退化模式在空间上的变化，我们加入了一个语义指导单元(SGU)来支持区域级分割，并为识别可能受退化影响的区域提供粗略的指导。

第三，在SGU空间线索的指导下，我们应用 任务识别符（task identifier）来估计局部邻域中的主要退化类型。这使ClearAIR能够自适应地选择适合区域的恢复策略，避免在整个图像中进行统一的一刀切处理。

最后，为了提高细粒度局部细节的恢复能力，我们提出了一种利用内部图像统计来细化局部结构的内部线索重用机制(ICRM)。

Methodology

1. Overall Pipeline

ClearAIR由四个组件组成：

1) MLLM-based IQA：它从视觉和文本标记中嵌入评分，通过质量指导模块(QGM) 指导恢复骨干。

2) Semantic Guidance Unit (SGU)：提供区域级语义掩码，通过语义交叉注意 (Semantic Cross-Attention, SCA) 融合特征。

3) Task Identifier：它估计主要的退化类型，并将此预测编码为退化感知模块(DAM)使用的退化提示符。

4) Internal Clue Reuse Mechanism (ICRM)：利用自监督学习提取图像内部线索，增强细节重建。整个过程的优化目标可表示为：

2. Overall Assessment

受早期 HVP 阶段 (强调全局结构线索) 的启发，我们采用了 MLLM-IQA 模型来评估输入图像的整体质量。如图 2 所示，使用视觉编码器将输入图像编码为视觉符号。此外，一个视觉 abstractor 被用作连接器模块的一部分，它进一步压缩了视觉标记。最后，将视觉和文本标记融合并送到大型 MLLM 中用于响应预测。

我们从 “quality level” 令牌之前的层提取状态 Q。这种表示更忠实地捕获了 MLLM-IQA 模型关于图像质量的基本推理。

3. Region Awareness

我们设计了一个 region awareness pipeline 来支持区域级分割，并为定位可能受到退化影响的区域提供粗略的指导。具体来说，我们引入 SGU，它利用了预训练的 Segment Anything Model (Ravi et al. 2024；Rong et al. 2025) 提取高级语义。给定降级的图像, SGU生成二进制掩码：

其中，每个掩码突出了一个不同的区域。这些掩码通过掩码平均池化(MAP) 与浅层特征相结合。对于每个掩码，我们计算掩码区域内的平均特征并将其广播回来：

其中，，输出编码语义感知的结构先验。

为了增强对由退化严重程度或模型规模引起的 Mask 质量波动的鲁棒性，我们在训练期间引入了掩码dropout，去除掩码的随机子集并将其区域合并到背景中。

最后，通过 SCA 与恢复主干交互，在恢复过程中启用区域级语义指导。这个过程可以表示为：

4. Task Recognition

在这一部分中，我们主要预测局部退化类型，从而能够更明智地表征区域级退化模式。具体来说，我们使用DA-CLIP 作为 Task Identifier 来生成内容嵌入和退化嵌入。然后将退化嵌入转化为退化提示符，其可表示为：

其中，为一组可学习提示。随后，将和特征输入到 DAM 中，实现内容感知空间增强的交叉注意。

同时，我们基于生成一个退化 mask $M_d \in \mathbb{R}^{1\times h\times w}$ ，然后利用对特征进行调制。这个过程可以描述如下：

5. Internal Clue Reuse Mechanism

如图 3 所示，我们引入 ICRM 来增强模型在恢复图像中保留细节的能力。为了实现这一点，我们对恢复的输出应用不同强度的数据增强。首先，对进行弱增广，公式为：

随后，对进行强增，可表示为：

最后，我们计算弱增广结果和强增广结果之间的L2距离，形成内部一致性：

其中，γ 是一个控制损失权重的超参数。在我们的实验中，我们设置 γ 的初始值= 0.05。

实验设置

我们采用DeQA 作为 MLLM-IQA 模型，并选择 Restormer 作为修复主干。具体来说，从1级到4级，提示Transformer 块(PTB)的数量设置为[3,5,6,8]，注意头为[1,2,4,8]，通道尺寸为[48,96,192,384]。我们使用AdamW (β1 = 0.9， β2 = 0.999)优化网络，学习率为，批大小为4。训练运行 300K 次迭代。总损失权重设为， 。所有实验均在 NVIDIA GeForce RTX 4090 gpu 上进行。在训练过程中，输入被随机裁剪为 256×256块，随机水平和垂直翻转用于数据增强。

All-in-One Image Restoration Results

1. Three Degradations Task

2. Five Degradations Task

3. All-Weather Task

4. Composited Degradation Task

Ablation Study

1. Effects of Perception Order

如表6 所示，Where-What-How 顺序产生最差的性能。这可能是因为感知区域级语义信息首先破坏了结构完整性，而结构完整性对于粗糙的质量评估至关重要。

2. Effects of Different Components

Conclusion

在本文中，我们提出了一种新的AiOIR框架ClearAIR，该框架受到 HVP 的启发，并采用了从粗到精的分层恢复策略。通过模仿 HVP 先感知图像整体再关注局部细节的倾向，我们的方法集成了整体评估、区域感知、任务识别和内部线索重用机制，以实现细粒度恢复。基于MLLM的图像质量评估模型、语义指导单元和任务识别器的组合使得能够准确地定位和理解退化模式。此外，提出的内部线索重用机制增强了模型以自我监督的方式恢复细节纹理的能力。

声明：若论文中有理解有误的地方，欢迎大家批评指正。