特征图和感受野

特征图和感受野是深度学习中非常重要的概念，本文将从理论和实践两个方面详细解释它们的含义和作用。

Helloworld188888

4580人浏览 · 2023-04-24 21:51:58

Helloworld188888 · 2023-04-24 21:51:58 发布

特征图和感受野是深度学习中非常重要的概念，本文将从理论和实践两个方面详细解释它们的含义和作用。

1.特征图

特征图是深度学习中常用的一种数据结构，它是卷积神经网络（CNN）中的一个重要概念。特征图是由一系列卷积核对输入图像进行卷积操作得到的结果。它可以看作是原始图像的抽象表示，其中每个像素点表示一些特定的特征。

在CNN中，特征图是网络中的中间层结果，它们可以被进一步处理和传递到后续的层中。特征图的大小和数量取决于卷积核的大小和数量，以及卷积的步长和填充方式等参数。

下面是一个简单的PyTorch代码示例，它演示了如何使用卷积层生成特征图：

import torch
import torch.nn as nn

# 定义一个简单的卷积神经网络
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 16, kernel_size=3, stride=1, padding=1)
        self.conv2 = nn.Conv2d(16, 32, kernel_size=3, stride=1, padding=1)
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2)
        
    def forward(self, x):
        x = self.conv1(x)
        x = nn.functional.relu(x)
        x = self.pool(x)
        x = self.conv2(x)
        x = nn.functional.relu(x)
        x = self.pool(x)
        return x

# 创建一个输入张量
x = torch.randn(1, 3, 32, 32)

# 创建网络对象
net = Net()

# 使用网络处理输入张量
output = net(x)

# 打印输出张量的形状
print(output.shape)

在上面的代码中，我们定义了一个简单的卷积神经网络，它包含两个卷积层和一个池化层。我们创建了一个3通道、32x32像素的输入张量，然后使用网络处理它。最后，我们打印输出张量的形状，可以看到它是一个4维张量，其中第一维是批次大小，第二维是通道数，第三维和第四维是特征图的高度和宽度。

2.感受野

感受野是指卷积神经网络中每个输出像素对应输入图像中的区域大小。它可以用来描述网络中每个神经元对输入图像的感知范围。感受野的大小取决于网络的层数、卷积核的大小和步长等参数。

感受野的概念对于理解CNN的工作原理和优化网络结构非常重要。如果感受野过小，网络可能无法捕捉到输入图像中的重要特征；如果感受野过大，网络可能会受到噪声和不相关信息的干扰。

下面是一个简单的PyTorch代码示例，它演示了如何计算卷积层的感受野大小：

import torch
import torch.nn as nn

# 定义一个简单的卷积神经网络
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 16, kernel_size=3, stride=1, padding=1)
        self.conv2 = nn.Conv2d(16, 32, kernel_size=3, stride=1, padding=1)
        self.pool = nn.MaxPool2d(kernel_size=2, stride=2)
        
    def forward(self, x):
        x = self.conv1(x)
        x = nn.functional.relu(x)
        x = self.pool(x)
        x = self.conv2(x)
        x = nn.functional.relu(x)
        x = self.pool(x)
        return x

# 创建一个输入张量
x = torch.randn(1, 3, 32, 32)

# 创建网络对象
net = Net()

# 使用网络处理输入张量
output = net(x)

# 打印每个卷积层的感受野大小
print("Conv1: ", net.conv1.weight.size(), net.conv1.stride, net.conv1.padding, net.conv1.dilation, net.conv1.groups)
print("Conv2: ", net.conv2.weight.size(), net.conv2.stride, net.conv2.padding, net.conv2.dilation, net.conv2.groups)

在上面的代码中，我们计算了两个卷积层的感受野大小。我们可以看到，第一个卷积层的感受野大小为3x3，第二个卷积层的感受野大小为5x5。这是因为第一个卷积层的卷积核大小为3x3，步长为1，填充为1，而第二个卷积层的卷积核大小为3x3，步长为1，填充为1，再加上第一个池化层的效果，导致第二个卷积层的感受野大小为5x5。
在计算感受野大小时，需要考虑卷积核大小、步长和填充方式等参数。具体计算方法如下：

对于第一层卷积层，感受野大小等于卷积核大小。
对于后续的卷积层，假设前一层的感受野大小为D，卷积核大小为K，步长为S，填充为P，则当前层的感受野大小为：

D’ = (D - 1) * S + K

其中，D’为当前层的感受野大小。
对于池化层，假设前一层的感受野大小为D，池化核大小为K，步长为S，则当前层的感受野大小为：

D’ = (D - 1) * S + K

其中，D’为当前层的感受野大小。

下面以代码中的两个卷积层为例，计算它们的感受野大小：

对于第一个卷积层，卷积核大小为3x3，步长为1，填充为1。由于这是第一层卷积层，感受野大小等于卷积核大小，即3x3。
对于第二个卷积层，卷积核大小为3x3，步长为1，填充为1。由于第一个卷积层的感受野大小为3x3，所以当前层的感受野大小为：

D’ = (3 - 1) * 1 + 3 = 5

即5x5。

因此，第一个卷积层的感受野大小为3x3，第二个卷积层的感受野大小为5x5。
假设输入图像的大小为 $W1×H1×D1W_1 \times H_1 \times D_1$ ，其中 $W_1$ 表示图像的宽度， $H_1$ 表示图像的高度， $D_1$ 表示图像的深度（即通道数）。假设第一个卷积层的卷积核大小为 $F1×F1F_1 \times F_1$ ，步长为 $S_1$ ，填充为 $P_1$ ，卷积核数量为 $K_1$ 。则第一个卷积层的输出特征图大小为：

$W2=W1−F1+2P1S1+1W_2 = \frac{W_1 - F_1 + 2P_1}{S_1} + 1$

$H2=H1−F1+2P1S1+1H_2 = \frac{H_1 - F_1 + 2P_1}{S_1} + 1$

$D_2 = K_1$

其中， $W2×H2×D2W_2 \times H_2 \times D_2$ 就是第一个卷积层的输出特征图的大小。

假设第一个池化层的池化核大小为 $F_{pool}$ ，步长为 $S_{pool}$ 。则第一个池化层的输出特征图大小为：

$W3=W2−FpoolSpool+1W_3 = \frac{W_2 - F_{pool}}{S_{pool}} + 1$

$H3=H2−FpoolSpool+1H_3 = \frac{H_2 - F_{pool}}{S_{pool}} + 1$

$D_3 = D_2$

其中， $W3×H3×D3W_3 \times H_3 \times D_3$ 就是第一个池化层的输出特征图的大小。

假设第二个卷积层的卷积核大小为 $F2×F2F_2 \times F_2$ ，步长为 $S_2$ ，填充为 $P_2$ ，卷积核数量为 $K_2$ 。则第二个卷积层的输出特征图大小为：

$W4=W3−F2+2P2S2+1W_4 = \frac{W_3 - F_2 + 2P_2}{S_2} + 1$

$H4=H3−F2+2P2S2+1H_4 = \frac{H_3 - F_2 + 2P_2}{S_2} + 1$

$D_4 = K_2$

其中， $W4×H4×D4W_4 \times H_4 \times D_4$ 就是第二个卷积层的输出特征图的大小。

因此，在这个例子中，第一个卷积层的输出特征图大小为 $32 \times 32 \times 32$ ，第一个池化层的输出特征图大小为 $16 \times 16 \times 32$ ，第二个卷积层的输出特征图大小为 $16 \times 16 \times 64$ 。可以看到，第一个池化层的作用是将特征图的大小减半，因此第二个卷积层的感受野大小为 $\times 5$ 。

3.结构图

下面是结构图，它展示了一个简单的卷积神经网络的结构，包括输入、卷积层、池化层和输出：

Input (3x32x32)
|
|--> Conv1 (16x32x32)
|    |
|    |--> ReLU
|    |
|    |--> MaxPool (16x16x16)
|
|--> Conv2 (32x16x16)
|    |
|    |--> ReLU
|    |
|    |--> MaxPool (32x8x8)
|
|--> Output (32x8x8)

4.相互关系

卷积核的大小决定了卷积层的感受野大小。感受野是指在输入图像上，一个像素点对应的卷积核大小和位置所覆盖的区域。感受野的大小可以通过以下公式计算：

$Ri=Ri−1+(ki−1)×SiR_{i}=R_{i-1}+(k_{i}-1)\times S_{i}$

其中， $R_{i}$ 表示第 $i$ 层的感受野大小， $k_{i}$ 表示第 $i$ 层卷积核的大小， $S_{i}$ 表示第 $i$ 层卷积的步长。

特征图的数量取决于卷积核的数量。在卷积层中，每个卷积核都会生成一个特征图。特征图的大小可以通过以下公式计算：

$Oi=Ii−ki+2×PiSi+1O_{i}=\frac{I_{i}-k_{i}+2\times P_{i}}{S_{i}}+1$

其中， $O_{i}$ 表示第 $i$ 层的特征图大小， $I_{i}$ 表示第 $i$ 层输入图像的大小， $k_{i}$ 表示第 $i$ 层卷积核的大小， $S_{i}$ 表示第 $i$ 层卷积的步长， $P_{i}$ 表示第 $i$ 层卷积的填充大小。

在PyTorch中，我们可以通过定义卷积层的参数来控制特征图的大小和数量。例如，以下代码定义了一个卷积层，其中卷积核大小为3，步长为1，填充为1，输出通道数为16：

import torch.nn as nn

conv = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3, stride=1, padding=1)

假设输入图片的大小为 $224 \times 224$ ，卷积核的大小为 $\times 3$ ，卷积的步长为 $1$ ，填充方式为 $1$ ，并且共有 $64$ 个卷积核。则经过第一层卷积后，输出的特征图大小为：

$Hout=Hin+2×padding−kernel_sizestride+1=224+2×1−31+1=224 \begin{aligned} H_{out} &= \frac{H_{in} + 2 \times padding - kernel\_size}{stride} + 1 \\ &= \frac{224 + 2 \times 1 - 3}{1} + 1 \\ &= 224 \end{aligned}$

同理，输出特征图的宽度也为 $224$ 。而由于共有 $64$ 个卷积核，因此输出的特征图数量也为 $64$ 。
特征图的大小和数量对于卷积神经网络的性能和效率有着重要的影响。因此，在设计卷积神经网络时，需要根据具体任务和数据集的特点，合理地选择卷积核大小、数量、步长和填充方式等参数，以达到最佳的性能和效率。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

《基于 FastAPI + LangGraph + LLM 大语言模型的通用 Agent 多智能体系统架构设计与开发实战、产业应用》

"""执行智能体任务，更新状态"""prompt = f"作为self . llm = llm async def execute(self , state : AgentState) - > AgentState : """执行智能体任务，更新状态""" prompt = f"作为 {self . role . value } ，当前状态: {