目标检测中特征图与感受野的关系

感受野

神经网络中感受野:神经网络每一层输出的特征图上的像素点在原始图像上映射区域的大小。
原始图像是指网络输入图像,是经过预处理后的图像。

在这里插入图片描述

感受野公式

F(i) = (F(i+1)-1)*Stride +Ksize 
# F(i)代表第i层感受野
# F(i+1)代表第i+1层感受野
# Stride 代表第i层步距
# Ksize代表卷积核或者池化核尺寸

如上图所示: 第三层的感受野F(3) = 1,对应第二层的感受野为F(2) = (F(3)-1)*stride + ksize =(1-1)*2+2 故第二层的感受野F(2)=2,对应第二层的感受野为F(3) = (F(2)-1)*stride + ksize =(2-1)*2+3 故第二层的感受野F(3)=5

参数量计算

假设输入大小都是h*w*c,并且都使用c个卷积核(得到c个特征图),可以用来计算一下各自所需的参数:

一个7*7卷积核所需参数:C*(7*7*C)=49C^2
三个3*3卷积核所需参数:3*C*(3*3*C)=27C^2

很显然,堆叠小的卷积核所需的参数更少一些,并且卷积过程越多,特征提取也会越细致,加入的非线性变换也随着更多,还不会增大权重参数个数,这就是VGG网络的出发点,用小的卷积核来完成提取特征操作,这也是为什么之后的几乎所有的目标检测网络以及分类网络如Darknet等等里面都是小的卷积核

结论

结论:特征图越小,其感受野越大,即代表原图中的映射区域更大,即在目标检测中可以检测到图像中较大的目标,而更容易忽略输入图像中的小目标,即大的映射区域缺失细节使得小目标更不易被检测

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐