论文解读：Activating More Pixels in Image Super-Resolution Transformer(HAT:混合注意力机制)

本文提出了一种称为混合注意力 Transformer（HAT）的新型网络架构，它融合了通道注意力和窗口自注意力机制的长处，提高了模型处理全局和局部信息的能力。此外，研究人员还引入了一个跨窗口的注意力模块，用以强化邻近窗口特征间的互动。通过在训练阶段实行同任务预训练，进一步提升了模型性能。经过一系列实验，这个方法在性能上显著优于现有最先进技术，达到了 1dB 以上的提高。

十有久诚

2792人浏览 · 2024-03-05 14:15:06

十有久诚 · 2024-03-05 14:15:06 发布

简述：本文提出了一种称为混合注意力 Transformer（HAT）的新型网络架构，它融合了通道注意力和窗口自注意力机制的长处，提高了模型处理全局和局部信息的能力。此外，研究人员还引入了一个跨窗口的注意力模块，用以强化邻近窗口特征间的互动。通过在训练阶段实行同任务预训练，进一步提升了模型性能。经过一系列实验，这个方法在性能上显著优于现有最先进技术，达到了 1dB 以上的提高。

文章汇总

话题	注意力机制
创新点	RHAG包含几个混合注意块(HAB)、一个重叠的交叉注意块(OCAB)和一个带有残差连接的3 × 3卷积层
	技术点1：建立通道注意力为了解决swintransformer全局视野不够的问题(见3.1动机中swinIR的不足)，将信道注意块(CAB)插入标准Swin Transformer块中。混合型注意块(HAB) 通道注意力模块(CAB) 对于具有C通道的输入特征，将第一层卷积后的输出特征的通道数压缩为 $\frac{C}{\beta}$ ，然后通过第二层将该特征扩展为C通道。接下来，利用标准CA模块[68]自适应地重新调整信道特征。
	技术点2：不同窗口间(如下图红色的两个框)允许存在重叠的地方重叠交叉注意块(OCAB) 建立跨窗口连接，增强了窗口自注意力代表能力。我们的OCAB由重叠的交叉注意(OCA)层和MLP层组成。
可改造的地方

摘要

基于变换的方法在图像超分辨率等低级视觉任务中表现出令人印象深刻的性能。然而，通过归因分析，我们发现这些网络只能利用有限的空间范围的输入信息。这意味着Transformer的潜力在现有网络中仍未得到充分利用。

为了激活更多的输入像素以获得更好的重建，我们提出了一种新的混合注意转换器(HAT)。它结合了渠道关注和基于窗口的自关注两种方案，利用了两者能够利用全局统计和较强的局部拟合能力的互补优势。此外，为了更好地聚合交叉窗口信息，我们引入了重叠交叉关注模块，以增强相邻窗口特征之间的交互作用。在训练阶段，我们还采用了同任务预训练策略来挖掘模型进一步改进的潜力。大量的实验证明了所提出模块的有效性，并且我们进一步扩大了模型，以证明该任务的性能可以大大提高。我们的整体方法明显优于最先进的方法超过1dB。

介绍

图1所示。本文提出的HAT与最先进的方法SwinIR[31]和EDT[27]在PSNR(dB)上的性能比较。HAT- l是HAT的一个更大的变体。我们的方法比目前的方法高出0.3dB ~ 1.2dB。

单幅图像超分辨率(SR)是计算机视觉和图像处理领域的经典问题。它旨在从给定的低分辨率输入中重建高分辨率图像。由于深度学习已经成功地应用于SR任务[10]，基于卷积神经网络(CNN)的许多方法被提出[8,11,12,24,29,32,68,70]，并且在过去几年中几乎占据了该领域的主导地位。最近，由于在自然语言处理方面的成功，Transformer[53]引起了计算机视觉界的关注。在高级视觉任务上取得快速进展后[14,39,54]，基于变压器的方法也被开发用于低水平视觉任务[6,57,65]，以及SR[27,31]。特别是，一个新设计的网络，SwinIR[31]，得到本任务的突破性改进。

尽管取得了成功，“为什么Transformer比CNN好”仍然是一个谜。一种直观的解释是，Transformer网络可以受益于自我注意机制，并利用远程信息。因此，我们采用归因分析方法LAM[15]来检查SwinIR中用于重建的利用信息涉及的范围。有趣的是，我们发现在超分辨率方面，SwinIR并不比基于cnn的方法(例如RCAN[68])利用更多的输入像素，如图2所示。

此外，尽管平均而言，SwinIR获得了更高的定量性能，但由于利用的信息范围有限，在某些样本中，它的结果不如RCAN。这些现象说明Transformer具有较强的建模本地信息的能力，但其利用信息的范围需要扩大。此外，我们还发现在SwinIR的中间特征中会出现阻塞伪影，如图3所示。结果表明，移位窗口机制不能很好地实现跨窗口信息交互。

为了解决上述局限性并进一步开发变压器在SR中的潜力，我们提出了一种混合注意力变压器，即HAT。我们的HAT结合了渠道关注和自关注两种方案，利用了渠道关注的全局信息利用能力和自关注的强大代表能力。此外，我们还引入了重叠交叉注意模块，实现了相邻窗口特征之间更直接的交互。得益于这些设计，我们的模型可以激活更多的像素进行重建，从而获得显着的性能提升。

由于transformer不像cnn那样具有归纳偏倚，因此大规模数据预训练对于释放此类模型的潜力非常重要。在这项工作中，我们提供了一个有效的同任务预训练策略。与IPT[6]使用多个恢复任务进行预训练和EDT[27]使用多个退化水平进行预训练不同，我们直接在同一任务上使用大规模数据集进行预训练。我们认为大规模的数据才是预训练真正重要的，实验结果也显示了我们策略的优越性。如图1所示，采用上述设计，HAT可以大大超越现有的方法(0.3dB ~ 1.2dB)。

贡献:

1)我们设计了一种新的混合注意转换器(HAT)，它结合了自注意、通道注意和一种新的重叠交叉注意来激活更多的像素以更好地重建。

2)我们提出了一种有效的同任务预训练策略，以进一步挖掘SR Transformer的潜力，并显示大规模数据预训练对任务的重要性。我们的方法达到了最先进的性能。通过进一步扩展HAT来构建一个大模型，我们极大地扩展了SR任务的性能上限。

2. 相关工作

2.1. 图像SR的深度网络

自SRCNN[10]首次将深度卷积神经网络(cnn)引入图像SR任务并获得优于传统SR方法的性能以来，众多深度网络[8、11、12、21、27、31、32、42、43、47、68、70]被提出用于SR以进一步提高重建质量。例如，许多方法采用更精细的卷积模块设计，如残差块[25,32]和密集块[56,70]，以增强模型表示能力。一些作品探索了更多不同的框架，如递归神经网络[22,48]和图神经网络[72]。为了提高感知质量，[25,55,56,67]引入对抗性学习来产生更真实的结果。通过使用注意机制，[8,35,42,43,68,69]进一步提高了重建保真度。

最近，一系列基于Transformer的网络被提出[6,27,31]，不断刷新SR任务的状态，显示了Transformer强大的表示能力。

为了更好地理解SR网络的工作机制，我们提出了一些分析和解释SR网络的工作。LAM[15]采用积分梯度法来探索哪些输入像素对最终性能贡献最大。DDR[37]揭示了基于深度特征降维和可视化的SR网络中的深度语义表示。fag[62]旨在寻找盲sr中特定退化的判别滤波器。RDSR[23]引入信道显著性映射来证明Dropout可以帮助防止真实sr网络的共适应。SRGA[38]旨在评估SR方法的泛化能力。在这项工作中，我们利用LAM[15]来分析和理解SR网络的行为。

2.2. Vision Transformer

最近，Transformer[53]因其在自然语言处理领域的成功而引起了计算机视觉界的关注。针对高级视觉任务，开发了一系列基于transformer的方法[7、13、14、20、26、28、39、44、54、59、60、63]，包括图像分类[14、28、39、46、52]、目标检测[5、7、36、39、50]、分割[3、18、54、58]等。虽然vision Transformer在建模远程依赖关系方面已经显示出其优势[14,45]，但仍有许多工作表明卷积可以帮助Transformer实现更好的视觉表示[26,59,61,63,64]。由于其令人印象深刻的性能，Transformer也被用于低级视觉任务[4,6,27,30,31,51,57,65]。具体来说，IPT[6]开发了一个viti风格的网络，并引入了用于图像处理的多任务预训练。SwinIR(Image Restoration Using Swin Transformer)[31]提出了一种基于[39]的图像恢复变压器。

VRT[30]将基于变压器的网络引入视频恢复。EDT[27]采用自注意机制和多相关任务预训练策略，进一步刷新了sr的状态。然而，现有的作品仍然不能充分发挥Transformer的潜力，而我们的方法可以激活更多的输入像素，从而更好地重建。

3. 计数

3.1. 动机

Swin Transformer[39]已经在图像超分辨率方面表现优异[31]。然后我们渴望知道是什么让它比基于cnn的方法更好。为了揭示其工作机制，我们使用了一种诊断工具- LAM[15]，这是一种为sr设计的归因方法。使用LAM，我们可以判断哪些输入像素对所选区域贡献最大。如图2所示，红色标记的点是有助于重建的信息像素。直观地说，利用的信息越多，性能就越好。

图2。LAM[15]对不同网络的结果。LAM属性反映了输入LR图像中每个像素在重建带有框标记的patch时的重要性。扩散指数(Diffusion index, DI)[15]反映了涉及像素的范围。较高的DI表示使用的像素范围更广。结果表明，与RCAN相比，SwinIR使用较少的信息，而HAT使用最多的像素进行重建

图3。模块说明在SwinIR的中间特征[31]。“层N”代表着第N层之后的中间装饰。

在比较RCAN[68]和EDSR[32]时，基于cnn的方法也是如此。然而，对于基于transformer的方法- SwinIR，其LAM并不比RCAN显示更大的范围。这与我们的常识相矛盾，但也可以为我们提供额外的见解。首先，这意味着SwinIR具有比CNN更强的映射能力，因此可以使用更少的信息来获得更好的性能。其次，由于使用像素的范围有限，SwinIR可能会恢复错误的纹理，我们认为如果它可以利用更多的输入像素，它可以进一步改进。因此，我们的目标是设计一个网络，可以利用类似的自关注，同时激活更多的像素进行重建。如图2所示，我们的HAT几乎可以看到图像上所有的像素，并恢复正确清晰的纹理。

此外，我们可以在SwinIR的中间特征中观察到明显的阻塞伪影，如图3所示。这些伪影是由窗口分割机制引起的，这表明移位窗口机制对于建立跨窗口连接是低效的。一些针对高级视觉任务的研究[13,20,44,60]也指出，增强窗口之间的连接可以改进基于窗口的自注意方法。因此，我们在设计方法时加强了跨窗口信息的交互，大大减轻了HAT获得的中间特征中的阻塞伪像。

3.2. 网络体系结构

3.2.1总体结构

如图4所示，整个网络由浅特征提取、深特征提取和图像重构三部分组成。建筑设计在以往的作品中被广泛使用[31,68]。具体来说，对于给定的低分辨率(LR)输入 $I_{LR}\in R^{H\times W \times C_{in}}$ ，我们首先利用一个卷积层提取浅特征 $F_0\in R^{H\times W\times C}$ ，其中 $C_{in}$ 和 $C$ 表示输入和中间特征的通道数。

然后，利用一系列残差混合注意组(RHAG)和一个3 × 3卷积层 $H_{Conv}(.)$ 进行深度特征提取。之后，我们添加一个全局残差连接，融合浅层特征 $F_0$ 和深层特征 $F_D\in R^{H\times W \times C_{in}}$ ，然后通过重构模块重构高分辨率结果。如图4所示，每个RHAG包含几个混合注意块(HAB)、一个重叠的交叉注意块(OCAB)和一个带有残差连接的3 × 3卷积层。重构模块采用像素洗牌法[47]对融合特征进行上采样。我们简单地使用 $L_1$ 损耗来优化网络参数。

3.2.2混合型注意块(HAB)

如图2所示，采用通道关注时，由于涉及全局信息来计算通道关注权重，激活的像素更多。此外，许多研究表明，卷积可以帮助Transformer获得更好的视觉表示或更容易的优化[26,59,61,63,71]。因此，我们在标准Transformer块中加入了一个基于通道注意力的卷积块，以增强网络的表示能力。如图4所示，在第一个LayerNorm (LN)层之后，与基于窗口的多头自注意(W-MSA)模块并行，将信道注意块(CAB)插入标准Swin Transformer块中。请注意，在类似于[31,39]的连续HABs中，每隔一段时间就会采用基于窗口的移位自注意(SW-MSA)。为了避免CAB和MSA在优化和视觉表示上可能发生的冲突，在CAB的输出中增加了一个小常数α。对于给定的输入特征X, HAB的整个过程计算为

其中 $X_N$ 和 $X_M$ 表示中间特征。Y表示HAB的输出。特别是，我们将每个像素作为一个标记进行嵌入(即，将patch size设置为1，用于后续的patch嵌入[31])。MLP表示多层感知器。用于计算自注意模快。给定一个大小为 $H\times W\times C$ 的输入特征，首先将其划分为大小为M × M的 $\frac{HW}{M^2}$ 局部窗口，然后在每个窗口内计算自关注。对于局部窗口特征 $X_W\in R^{M^2\times C}$ ，查询、键和值矩阵通过线性映射计算为Q、K和V。

然后将基于窗口的自我注意表述为

其中d表示查询/键的维度。B为相对位置编码，计算公式为[53]。

请注意，我们使用大窗口大小来计算自注意力，因为我们发现它显着扩大了使用像素的范围，如第4.2节所示。此外，为了在相邻的非重叠窗口之间建立连接，我们还使用了移位窗口划分方法[39]，并将移位大小设置为窗口大小的一半。

3.2.3通道注意力模块(CAB)

CAB由两个标准卷积层组成，其中一个是GELU激活[17]，另一个是信道注意(CA)模块，如图4所示。由于基于transformer的结构通常需要大量通道进行令牌嵌入，因此直接使用定宽卷积会产生很大的计算成本。因此，我们将两个卷积层的通道数压缩为常数 $\beta$ 。对于具有C通道的输入特征，将第一层卷积后的输出特征的通道数压缩为 $\frac{C}{\beta}$ ，然后通过第二层将该特征扩展为C通道。接下来，利用标准CA模块[68]自适应地重新调整信道特征。

3.2.4重叠交叉注意块(OCAB)

引入OCAB，直接建立跨窗口连接，增强了窗口自注意力代表能力。我们的OCAB由重叠的交叉注意(OCA)层和MLP层组成，类似于标准的Swin Transformer模块[39]。但是对于OCA，如图5所示，我们使用不同的窗口大小来划分投影特征。具体来说，对于输入特征X的 $X_Q,X_K,X_V \in R^{H\times W\times C}$ , $X_Q$ 划分为大小为M × M的 $\frac{HW}{M^2}$ 不重叠窗口， $X_K,X_V$ 展开为大小为
$M_0 \times M_0$ 的 $\frac{HW}{M^2}$ 重叠窗口，计算为

其中 $\gamma$ 是控制重叠大小的常数。为了更好地理解这个操作，标准窗口分区可以看作是一个滑动分区，内核大小和步长都等于窗口大小m，而重叠窗口分区可以看作是一个滑动分区，内核大小为
$M_0$ ，步长为m，使用大小为 $\frac{\gamma M}{2}$ 的零填充来保证重叠窗口大小的一致性。注意矩阵按公式2计算，并采用相对位置偏差 $B \in R^{M\times M_0}$ 。不像WSA，它的查询、键和值都是从同一个窗口特征计算出来的, OCA从更大的字段中计算键/值，其中可以利用更多有用的信息进行查询。请注意，尽管[44]中的多分辨率重叠注意(Multi-resolution Overlapped Attention, MOA)模块执行了类似的重叠窗口划分，但我们的OCA与MOA有着本质上的不同，因为MOA使用窗口特征作为令牌计算全局注意力，而OCA使用像素令牌计算每个窗口特征内部的交叉注意力。

3.3. 同任务预训练

预训练在许多高级视觉任务中被证明是有效的[1,14,16]。最近的研究[6,27]也表明，预训练有利于低水平的视觉任务。IPT[6]强调使用各种低级任务，如去噪、去训练、超分辨率等，而EDT[27]则利用特定任务的不同退化程度进行预训练。这些工作的重点是研究多任务预训练对目标任务的影响。相比之下，我们直接基于相同的任务在更大规模的数据集(即ImageNet[9])上进行预训练，表明预训练的有效性更多地取决于数据的规模和多样性。例如，当我们想要训练一个×4 SR模型时，我们首先在ImageNet上训练一个×4 SR模型，然后在特定的数据集(如DF2K)上对其进行微调。提出的策略，即同任务预训练，更简单，同时带来更多的性能改进。值得一提的是，充分的训练迭代进行预训练和适当的小学习率进行微调对于预训练策略的有效性是非常重要的。我们认为这是因为Transformer需要更多的数据和迭代来学习任务的一般知识，但需要一个小的学习率来进行微调，以避免过度拟合到特定的数据集。

5. 结论

在本文中，我们提出了一种新的混合注意力转换器，HAT，用于单幅图像的超分辨率。我们的模型结合了通道注意和自注意来激活更多的像素进行高分辨率重建。此外，我们还提出了重叠交叉注意模块，以增强跨窗口信息的交互性。此外，我们引入了一个相同任务的预训练策略来进一步挖掘HAT的潜力。大量的实验证明了所提出的模块和预训练策略的有效性。我们的方法在数量和质量上明显优于最先进的方法。