MaxPooling和AvgPooling的求导过程

一、MaxPooling前向传播与反向传播MaxPooling就是对卷积区域进行最大值计算。1、MaxPooling池化区域与步长相同时，即只对最大区域进行梯度计算，最后将梯度平均到四个区域中。1314524696123456conv(2,2)stride=2>5696梯度坐标>0000100110000001梯度值>00000.25000.250.250000000.25\be

wang-jue

3148人浏览 · 2021-09-02 19:23:56

wang-jue · 2021-09-02 19:23:56 发布

一、MaxPooling前向传播与反向传播

MaxPooling就是对卷积区域进行最大值计算。
1、MaxPooling池化区域与步长相同时，即只对最大区域进行梯度计算，最后将梯度平均到四个区域中。
$\begin{gathered} \begin{matrix} 1 & 3 & 1 & 4 \\ 5 & 2 &4 & 6 \\ 9 & 6 & 1 & 2 \\ 3 & 4 & 5 & 6\end{matrix} \quad conv(2,2) stride=2 > \begin{matrix} 5 & 6 \\ 9 & 6\end{matrix} \quad 梯度坐标> \begin{matrix} 0 & 0 & 0 & 0 \\ 1 & 0 & 0 & 1 \\ 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 1\end{matrix} \quad 梯度值> \begin{matrix} 0 & 0 & 0 & 0 \\ 0.25 & 0 & 0 & 0.25 \\ 0.25 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0.25\end{matrix} \end{gathered}$
下图中，红色的框表示池化区域，得到5，而对应的下标计数为1，最后将所有的梯度平均。1/4
在这里插入图片描述
2、MaxPooling池化区域与步长不相同时，进行池化操作之后，对于重复出现的最大值进行重复计数，最后再根据计数进行梯度平均。
$\begin{gathered} \begin{matrix} 1 & 3 & 1 & 4 \\ 5 & 2 &4 & 6 \\ 9 & 6 & 1 & 2 \\ 3 & 4 & 5 & 6\end{matrix} \quad conv(2,2) stride=1 > \begin{matrix} 5 & 4& 6 \\ 9 & 6 & 6 \\9 & 6 & 6\end{matrix} \quad 梯度坐标> \begin{matrix} 0 & 0 & 0 & 0 \\ 1 & 0 & 1 & 2 \\ 2 & 2 & 0 & 0 \\ 0 & 0 & 0 & 1\end{matrix} \quad 梯度值> \begin{matrix} 0 & 0 & 0 & 0 \\ 0.11 & 0.11 & 0 & 0.22 \\ 0.22 & 0.22 & 0 & 0 \\ 0 & 0 & 0 & 0.11\end{matrix} \end{gathered}$
当步长小于池化区域时，存在重叠区域，那么将进行重复计算，对应梯度也按照权重分配。
在这里插入图片描述
上图中，5、4分别是最大值，因此梯度计数回到对应的位置分别为1。下图中，绿、红的最大值均为6，因此被计数两次，梯度坐标为2。

二、AvgPooling前向传播与反向传播

AvgPooling就是对卷积区域进行均值计算。
1、AvgPooling池化区域与步长相同时，对全局进行梯度平均。
$\begin{gathered} \begin{matrix} 1 & 3 & 1 & 4 \\ 5 & 2 &4 & 6 \\ 9 & 6 & 1 & 2 \\ 3 & 4 & 5 & 6\end{matrix} \quad conv(2,2) stride=2 > \begin{matrix} 2.75 & 3.75 \\ 5.5 & 3.5\end{matrix} \quad 梯度坐标> \begin{matrix} 1 & 1 & 1 & 1 \\ 1 & 1 & 1 & 1 \\ 1 & 1 & 1 & 1 \\ 1 & 1 & 1 & 1\end{matrix} \quad 梯度值> \begin{matrix} 0.0265 & 0.0265 & 0.0265 & 0.0265 \\ 0.0265 & 0.0265 & 0.0265 & 0.0265 \\ 0.0265 & 0.0265 & 0.0265 & 0.0265 \\ 0.0265 & 0.0265 & 0.0265 & 0.0265\end{matrix} \end{gathered}$
2、AvgPooling池化区域与步长不相同时，对全局按照重叠区域进行权重平均。对重复计算的区域进行重复计数。
$\begin{gathered} \begin{matrix} 1 & 3 & 1 & 4 \\ 5 & 2 &4 & 6 \\ 9 & 6 & 1 & 2 \\ 3 & 4 & 5 & 6\end{matrix} \quad conv(2,2) stride=1 > \begin{matrix} 2.75 & 2.5 &3.75\\ 5.5 & 3.25 & 3.25 \\5.5&4&3.5\end{matrix} \quad 梯度坐标> \begin{matrix} 1 & 2 & 2 & 1 \\ 2 & 4 & 4 & 2 \\ 2 & 4 & 4 & 2 \\ 1 & 2 & 2 & 1\end{matrix} \quad 梯度值> \begin{matrix} 0.0287& 0.0556& 0.0556& 0.0287\\ 0.0556& 0.1111 & 0.1111 & 0.0556\\ 0.0556& 0.1111 & 0.1111 & 0.0556 \\ 0.0287& 0.0265 & 0.0265 & 0.0287\end{matrix} \end{gathered}$
这里把重复计数问题通过滑动窗口的形式表现出来：
在这里插入图片描述
左图中数字1，在进行平均池化计算时，由于会被红色个窗口进行平均计算，因此梯度坐标为1，即均值计算计数为1；3经过红、黑两个窗口进行均值计算，计数梯度为2；2这个数字经过红、黑、绿、粉四个窗口进行均值计算，因此计数为4。

三、代码

import torch
import numpy as np
img = np.array([
        [1,3,1,4],
        [5,2,4,6],
        [9,6,1,2],
        [3,4,5,6],])
img = img.astype(np.float)
img = torch.tensor(img,requires_grad=True).float()
img = img.unsqueeze(0)
img.retain_grad() #保留梯度
pool = torch.nn.functional.avg_pool2d(img,kernel_size=(2,2),stride=1) #平均池化
# pool = torch.nn.functional.max_pool2d(vara,kernel_size=(2,2),stride=1) # 最大池化
print(pool) #池化结果
pool = torch.mean(pool) #均值计算
pool.backward() #梯度回传
print(img.grad) #输出梯度

代码参考

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

【 C++】模板简介

假如我们想写一个Swap函数，针对每一种类型，都要函数重载写一次，但它们的实现原理是几乎一样的。在这种情况下，重载的函数仅仅是类型不同，代码复用率比较低，只要有新类型出现，都需要用户自己增加对应的函数，并且代码的可维护性也较低。代码语言：javascriptAI代码解释前人也想到了这个问题，于是，泛型编程和模板的概念就诞生了：泛型编程：编写与类型无关的通用代码，是代码复用的一种手段。模板是泛型