什么是膨胀卷积？

Atrous Convolution，或称为，是一种用于扩展卷积核感受野的卷积操作。相比传统的卷积，膨胀卷积通过在卷积核的元素之间插入“空洞”来增加感受野，而无需增加卷积核大小或增加计算量。

coldasice342

1396人浏览 · 2024-09-11 15:37:45

coldasice342 · 2024-09-11 15:37:45 发布

Atrous Convolution，或称为 Dilation Convolution（膨胀卷积），是一种用于扩展卷积核感受野的卷积操作。相比传统的卷积，膨胀卷积通过在卷积核的元素之间插入“空洞”来增加感受野，而无需增加卷积核大小或增加计算量。

关键概念

感受野：感受野越大，卷积操作能够捕捉的上下文信息越多。
膨胀率（Dilation Rate）：指卷积核中元素之间的距离。膨胀率为 1 表示标准卷积，膨胀率为 2 表示在卷积核元素之间插入一个空洞，以此类推。

膨胀卷积的公式

对于一个二维卷积，标准卷积的操作是将卷积核滑动到输入特征图的不同位置，并在每个位置上执行元素点乘并求和。其数学表达式为：

$\sum_{k} x[i+k] \cdot w[k]$

在膨胀卷积中，通过引入膨胀率 $d$ ，公式变为：

$\sum_{k} x[i + d \cdot k] \cdot w[k]$

其中 $d$ 是膨胀率， $w$ 是卷积核权重， $x$ 是输入。

膨胀卷积的特点

扩展感受野：通过膨胀卷积，卷积核的感受野可以在不增加权重参数数量的情况下有效增大。这使得模型能够在保持相对较少计算量的同时，捕获到更多的全局信息。
不引入额外参数：相比增加卷积核大小来增加感受野，膨胀卷积不需要增加更多的参数量，因此更为高效。
保留分辨率：标准卷积在通过多个卷积层之后，通常会缩小输入特征图的分辨率。而膨胀卷积允许在保持输入特征图分辨率的同时扩展感受野，适合于需要细粒度空间信息的任务，例如分割和目标检测。

膨胀卷积的应用场景

图像分割：膨胀卷积在语义分割任务中非常常用，因为它可以通过扩大感受野捕捉到全局的上下文信息，而不会降低特征图的分辨率。
目标检测：在目标检测任务中，膨胀卷积可以帮助网络更好地捕捉多尺度的物体，尤其是那些具有不同尺寸的目标。
多尺度特征提取：通过不同膨胀率的膨胀卷积，网络可以同时提取出多尺度的特征，增强网络的表达能力。

举例说明

假设有一个 $\times 3$ 的卷积核：

标准卷积（膨胀率为 1）：卷积核覆盖的是 $\times 3$ 的局部区域。
膨胀卷积（膨胀率为 2）：卷积核的每个元素之间会有一个像素间隔，卷积核实际感受的区域变为 $\times 5$ ，而卷积核本身的参数依然是 $\times 3$ 。

总结来说，膨胀卷积（Atrous Convolution）是一种有效的手段，在不增加计算量和参数数量的情况下扩展卷积核的感受野，被广泛应用于需要多尺度特征和高分辨率特征保留的任务中。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

云雾API接入Seedance2.0视频生成模型完整教程：从API密钥到生产环境部署

2048 AI社区

数据库范式那些事

简单的说，bc范式是在第三范式的基础上的一种特殊情况，既每个表中只有一个候选键（在一个数据库中每行的值都不相同，则可称为候选键），在上面第三范式的noNf表中可以看出，每一个员工的email都是唯一的（难道两个人用同一个email?数据库范式在数据库设计中的地位一直很暧昧，教科书中对于数据库范式倒是都给出了学术性的定义，但实际应用中范式的应用却不甚乐观，这篇文章会用简单的语言和一个简单的数据库DE