一文详解经典卷积神经网络（LeNet、AlexNet、VGGNet、GoogLeNet、ResNet、DenseNet等）

大家好！今天用一篇文章对经典的卷积神经网络进行详解，包含LeNet、AlexNet、VGGNet、NiN、GoogLeNet、ResNet、DenseNet，同时我也整理关于神经网络几大主流SOTA模型及相关变体的论文与代码仓库，可添加我的小助手无偿获取~文章中所有的数据和资料，可添加小助手无偿分享~扫码添加小助手即可无偿获取~也可以关注“AI技术星球”公众号，关注后回复“221C”获取。LeNe

深度学习机器学习

321人浏览 · 2025-09-13 17:31:41

深度学习机器学习 · 2025-09-13 17:31:41 发布

大家好！今天用一篇文章对经典的卷积神经网络进行详解，包含LeNet、AlexNet、VGGNet、NiN、GoogLeNet、ResNet、DenseNet，同时我也整理关于神经网络几大主流SOTA模型及相关变体的论文与代码仓库，可添加我的小助手无偿获取~

文章中所有的数据和资料，可添加小助手无偿分享~
扫码添加小助手即可无偿获取~

也可以关注“AI技术星球”公众号，关注后回复“221C”获取。

LeNet : 基础图像识别网络 (1998)

LeNet-5是Yann LeCun等人在多次研究后提出的最终卷积神经网络结构，一般LeNet即指代LeNet-5。LeNet-5是用来处理手写字符的识别问题的。LeNet-5阐述了图像中像素特征之间的相关性能够由参数共享的卷积操作所提取，同时使用卷积、下采样（池化）和非线性映射这样的组合结构，是当前流行的大多是深度图像识别网络的基础。

LeNet的网络结构

LeNet-5包含七层，不包括输入，每一层都包含可训练参数（权重），当时使用的输入数据是32*32像素的图像。下面逐层介绍LeNet-5的结构，并且，卷积层将用Cx表示，子采样层则被标记为Sx，完全连接层被标记为Fx，其中x是层索引。

LeNet-5结构：

输入：32x32的灰度图像，也就是一个通道，那么一个图像就是一个2维的矩阵，没有RGB三个通道。
Layer1：6个大小为5x5的卷积核，步长为1。因此，到这里的输出变成了28x28x6。
Layer2：2x2大小的池化层，使用的是average pooling，步长为2。那么这一层的输出就是14x14x6。
Layer3：16个大小为5x5的卷积核，步长为1。但是，这一层16个卷积核中只有10个和前面的6层相连接。也就是说，这16个卷积核并不是扫描前一层所有的6个通道。如下图，0 1 2 3 4 5这 6个卷积核是扫描3个相邻，然后是6 7 8这3个卷积核是扫描4个相邻，9 10 11 12 13 14这6个是扫描4个非相邻，最后一个15扫描6个。实际上前面的6通道每个都只有10个卷积核扫描到。

这么做的原因是打破图像的对称性，并减少连接的数量。如果不这样做的话，每一个卷积核扫描一层之后是10x10，一个核大小是5x5，输入6个通道，输出16个，所以是10x10x5x5x6x16=240000个连接。但实际上只有156000连接。训练参数的数量从2400变成了1516个。

Layer4：和第二层一样，2x2大小的池化层，使用的是average pooling，步长为2。

Layer5：全连接卷积层，120个卷积核，大小为1x1。

第四层结束输出为16x5x5，相当于这里16x5x5展开为400个特征，然后使用120神经元去做全连接，如下图所示：

Layer6：全连接层，隐藏单元是84个。
Layer7：输出层，输出单元是10个，因为数字识别是0-9。

最终，LeNet-5的总结如下：

在这里插入图片描述

LeNet小结

卷积网络使用一个3层的序列组合：卷积、下采样 (池化)、非线性映射 (LeNet-5最重要的特性，奠定了目前深层卷积网络的基础)
使用卷积提取空间特征
使用映射的空间均值进行下采样
使用tanh或sigmoid进行非线性映射
多层神经网络 (MLP) 作为最终的分类器
层间的稀疏连接矩阵以避免巨大的计算开销

AlexNet：深度卷积网络（2012）

Alex Krizhevsky等人在2012年提出了首个应用于图像分类的卷积神经网络变体AlexNet。他们认为特征本身应该被学习，而且特征应该由多个共同学习的神经网络层组成，每个层都有可学习的参数。

如下图，在网络的最底层，模型学习到了一些类似于传统滤波器的特征抽取器。

在这里插入图片描述

AlexNet的更高层建立在这些底层表示的基础上，以表示更大的特征，如眼睛、鼻子、草叶等等。而更高的层可以检测整个物体，如人、飞机、狗或飞盘。最终的隐藏神经元可以学习图像的综合表示，从而使属于不同类别的数据易于区分。

AlexNet使用GPU代替CPU进行运算，使得在可接受的时间范围内模型结构能够更加复杂，它的出现证明了深层卷积神经网络在复杂模型下的有效性。

AlexNet的网络架构：

AlexNet和LeNet的架构非常相似，如下图所示。左侧是LeNet, 右侧是AlexNet。

在这里插入图片描述

AlexNet由八层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。其次，AlexNet使用ReLU而不是sigmoid作为其激活函数。下面，让我们深入研究AlexNet的细节。

模型设计：

在这里插入图片描述

在AlexNet的第一层，卷积窗口的形状是11×11。由于ImageNet中大多数图像的宽和高比MNIST图像的多10倍以上，因此，需要一个更大的卷积窗口来捕获目标。第二层中的卷积窗口形状被缩减为5×5，然后是3×3。此外，在第一层、第二层和第五层卷积层之后，加入窗口形状为3×3、步幅为2的最大汇聚层。而且，AlexNet的卷积通道数目是LeNet的10倍。

在最后一个卷积层后有两个全连接层，分别有4096个输出。这两个巨大的全连接层拥有将近1GB的模型参数。由于早期GPU显存有限，原版的AlexNet采用了双数据流设计，使得每个GPU只负责存储和计算模型的一半参数。幸运的是，现在GPU显存相对充裕，所以我们现在很少需要跨GPU分解模型（因此，我们的AlexNet模型在这方面与原始论文稍有不同）。

最大池化

在CNN中使用重叠的最大池化。此前CNN中普遍使用平均池化，AlexNet全部使用最大池化，避免平均池化的模糊化效果。并且AlexNet中提出让步长比池化核的尺寸小，这样池化层的输出之间会有重叠和覆盖，提升了特征的丰富性。

激活函数

此外，AlexNet将sigmoid激活函数改为更简单的ReLU激活函数。一方面，ReLU激活函数的计算更简单，它不需要如sigmoid激活函数那般复杂的求幂运算。另一方面，当使用不同的参数初始化方法时，ReLU激活函数使训练模型更加容易。当sigmoid激活函数的输出非常接近于0或1时，这些区域的梯度几乎为0，因此反向传播无法继续更新一些模型参数。相反，ReLU激活函数在正区间的梯度总是1。因此，如果模型参数没有正确初始化，sigmoid函数可能在正区间内得到几乎为0的梯度，从而使模型无法得到有效的训练。

使用ReLU作为CNN的激活函数，并验证其效果在较深的网络超过了Sigmoid，成功解决了Sigmoid在网络较深时的梯度弥散问题，此外，加快了训练速度，因为训练网络使用梯度下降法，非饱和的非线性函数训练速度快于饱和的非线性函数。虽然ReLU激活函数在很久之前就被提出了，但是直到AlexNet的出现才将其发扬光大。

Dropout

AlexNet通过暂退法（dropout）控制全连接层的模型复杂度，而LeNet只使用了权重衰减。

Dropout虽有单独的论文论述，但是AlexNet将其实用化，通过实践证实了它的效果。在AlexNet中主要是最后几个全连接层使用了Dropout。

数据增强

随机地从 256 × 256的原始图像中截取 224 × 224大小的区域(以及水平翻转的镜像)，相当于增加了 ( 256 × 224 ) 2 × 2 = 2048倍的数据量。如果没有数据增强，仅靠原始的数据量，参数众多的CNN会陷入过拟合中，使用了数据增强后可以大大减轻过拟合，提升泛化能力。进行预测时，则是取图片的四个角加中间共 5 个位置，并进行左右翻转，一共获得10张图片，对他们进行预测并对10次结果求均值。

使用CUDA加速深度卷积网络的训练

利用GPU强大的并行计算能力，处理神经网络训练时大量的矩阵运算。AlexNet使用了两块GTX580GPU进行训练，单个GTX580只有3GB显存，这限制了可训练的网络的最大规模。因此作者将AlexNet分布在两个GPU上，在每个GPU的显存中储存一半的神经元的参数。

AlexNet的代码实现

import torchfrom torch import nnfrom d2l import torch as d2lnet = nn.Sequential(    # 这里，我们使用一个11*11的更大窗口来捕捉对象。    # 同时，步幅为4，以减少输出的高度和宽度。    # 另外，输出通道的数目远大于LeNet    nn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(),    nn.MaxPool2d(kernel_size=3, stride=2),    # 减小卷积窗口，使用填充为2来使得输入与输出的高和宽一致，且增大输出通道数    nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(),    nn.MaxPool2d(kernel_size=3, stride=2),    # 使用三个连续的卷积层和较小的卷积窗口。    # 除了最后的卷积层，输出通道的数量进一步增加。    # 在前两个卷积层之后，汇聚层不用于减少输入的高度和宽度    nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(),    nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(),    nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(),    nn.MaxPool2d(kernel_size=3, stride=2),    nn.Flatten(),    # 这里，全连接层的输出数量是LeNet中的好几倍。使用dropout层来减轻过拟合    nn.Linear(6400, 4096), nn.ReLU(),    nn.Dropout(p=0.5),    nn.Linear(4096, 4096), nn.ReLU(),    nn.Dropout(p=0.5),    # 最后是输出层。由于这里使用Fashion-MNIST，所以用类别数为10，而非论文中的1000    nn.Linear(4096, 10))

我们构造一个高度和宽度都为224的单通道数据，来观察每一层输出的形状。

X = torch.randn(1, 1, 224, 224)for layer in net:    X=layer(X)    print(layer.__class__.__name__,'output shape:\t',X.shape)

Conv2d output shape: torch.Size([1, 96, 54, 54])ReLU output shape: torch.Size([1, 96, 54, 54])MaxPool2d output shape: torch.Size([1, 96, 26, 26])Conv2d output shape: torch.Size([1, 256, 26, 26])ReLU output shape: torch.Size([1, 256, 26, 26])MaxPool2d output shape: torch.Size([1, 256, 12, 12])Conv2d output shape: torch.Size([1, 384, 12, 12])ReLU output shape: torch.Size([1, 384, 12, 12])Conv2d output shape: torch.Size([1, 384, 12, 12])ReLU output shape: torch.Size([1, 384, 12, 12])Conv2d output shape: torch.Size([1, 256, 12, 12])ReLU output shape: torch.Size([1, 256, 12, 12])MaxPool2d output shape: torch.Size([1, 256, 5, 5])Flatten output shape: torch.Size([1, 6400])Linear output shape: torch.Size([1, 4096])ReLU output shape: torch.Size([1, 4096])Dropout output shape: torch.Size([1, 4096])Linear output shape: torch.Size([1, 4096])ReLU output shape: torch.Size([1, 4096])Dropout output shape: torch.Size([1, 4096])Linear output shape: torch.Size([1, 10])

读取数据集

batch_size = 128train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)

训练

lr, num_epochs = 0.01, 10d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

loss 0.327, train acc 0.881, test acc 0.8854149.6 examples/sec on cuda:0

AlexNet小结：

使用ReLU作为CNN的激活函数。
训练时使用Dropout随机忽略一部分神经元，以避免模型过拟合。
在CNN中使用重叠的最大池化。
提出了LRN层，对局部神经元的活动创建竞争机制，使得其中响应比较大的值变得相对更大，并抑制其他反馈较小的神经元，增强了模型的泛化能力。此方法在之后的VGG中被认为是无效的。
AlexNet在训练时增加了大量的图像增强数据，如翻转、裁切和变色。这使得模型更健壮，更大的样本量有效地减少了过拟合。
使用CUDA加速深度卷积网络的训练

ZFNet ：大型卷积网络 (2013)

ZFNet在2013年 ILSVRC 图像分类竞赛获得冠军，错误率11.19% ，比2012年的AlexNet降低了5%，ZFNet是由Matthew D.Zeiler和Rob Fergus在AlexNet基础上提出的大型卷积网络。ZFNet解释了为什么卷积神经网络可以在图像分类上表现的如此出色，以及研究了如何优化卷积神经网络。ZFNet提出了一种可视化的技术，通过可视化，我们就可以了解卷积神经网络中间层的功能和分类器的操作，这样就就可以找到较好的模型。ZFNet还进行消融实验来研究模型中的每个组件，它会对模型有什么影响。

ZFNet的网络结构

ZFNet 仅仅是在 AlexNet 上做了一些调参：
改变了 AlexNet 的第一层，即将卷积核的尺寸大小 11x11 变成 7x7，并且将步长 4变成了 2。

ZFNet实际上是微调（Fine-tuning）了AlexNet, 并通过反卷积（Deconvolution）的方式可视化各层的输出特征图，进一步解释了卷积操作在大型网络中效果显著的原因。

对卷积结果的可视化

作者将卷积核的计算结果（feature maps）映射回原始的像素空间（映射的方法为反卷积，反池化）并进行可视化。例如，下图Layer1区域最左上角的九宫格代表第一层卷积计算得到的前九张feature maps映射回原图像素空间后的可视化（称为f9）。第一层卷积使用96个卷积核，这意味着会得到96张feature maps，这里的前九张feature maps是指96个卷积核中值最大的9个卷积核对应生成的feature maps（这里称这9个卷积核为k9，即，第一层卷积最关注的前九种特征）。可以发现，这九种特征都是颜色和纹理特征，即蕴含语义信息少的结构性特征。

为了证明这个观点，作者又将数据集中的原始图像裁剪成小图，将所有的小图送进网络中，得到第一层卷积计算后的feature maps。统计能使k9中每个kernel输入计算结果最大的前9张输入小图，即9*9=81张，如下图红框中右下角所示。结果表明刚刚可视化的f9和这81张小图表征的特征是相似的，且一一对应的。由此证明卷积网络在第一层提取到的是一些颜色，纹理特征。

在这里插入图片描述

同理，观察Layer2和Layer3的可视化发现，第二次和第三次卷积提取到的特征蕴含的语义信息更丰富，不再是简单的颜色纹理信息，而是一些结构化的特征，例如蜂窝形状，圆形，矩形等等。那么网络的更深层呢？我们看下图：

在这里插入图片描述

在网络的深层，如第四层，第五层卷积提取到的是更高级的语义信息，如人脸特征，狗头特征，鸟腿鸟喙特征等等。

最后，越靠近输出端，能激活卷积核的输入图像相关性越少（尤其是空间相关性），例如Layer5中，最右上角的示例：feature map中表征的是一种绿色成片的特征，可是能激活这些特征的原图相关性却很低（原图是人，马，海边，公园等，语义上并不相干）；其实这种绿色成片的特征是‘草地’，而这些语义不相干的图片里都有‘草地’。‘草地’是网络深层卷积核提取的是高级语义信息，不再是低级的像素信息，空间信息等等。

网络中对不同特征的学习速度

如下图所示，横轴表示训练轮数，纵轴表示不同层的feature maps映射回像素空间后的可视化结果：

在这里插入图片描述

由此可以看出，low-level的特征(颜色，纹理等)在网络训练的训练前期就可以学习到，即更容易收敛；high-level的语义特征在网络训练的后期才会逐渐学到。由此展示了不同特征的进化过程。这也是一个合理的过程，毕竟高级的语义特征，要在低级特征的基础上学习提取才能得到。

图像的平移、缩放、旋转对CNN的影响

下图是探究图片平移对卷积模型影响的实验，a1是五张不同的图片经过不同大小的左右平移后的结果。

a2是原始图片与经过平移后的图片分别送进卷积网络后，第一层卷积计算得到的feature maps之间的欧氏距离，可以看出当图片平移0个像素时（即图中横轴=0处），距离最小（等于0）。其他位置随着左右平移，得到的距离都会陡增或陡减。五条彩色曲线分别代表五张不同的原始图片。

a3是原始图片与经过平移后的图片分别送进卷积网络后，第七层卷积计算得到的feature maps之间的欧氏距离，可以看出趋势与a2类似；但是，增减的曲线变换更平缓，这一定程度上说明了网络的深层提取的是高级语义特征，而不是低级的颜色，纹理，空间特征。这种语义信息不会随着平移操作而轻易改变，例如狗的图片平移后还是狗。

这个性质叫做：卷积拥有良好的平移不变性。

最后，a4表示的是原始图片与经过平移后的图片分别送进卷积网络后，卷积网络最后的识别结果。可以看出识别准确率是相对平稳的，且在横轴x=0时，识别准确率较高（此时，图片不平移，识别物体基本在图片中心位置）。

在这里插入图片描述

下图探究图片缩放对卷积模型影响的实验，实验方法和表述与上面探讨平移时的设置类似。结果表明，网络的浅层相较于网络的深层对缩放操作更敏感；且最终的识别准确率较平稳。这个趋势跟探究平移操作对卷积模型影响的趋势类似，即：卷积操作也具有良好的缩放不变性。

在这里插入图片描述

下图是探究图片旋转对卷积模型影响的实验，可以看出旋转操作对卷积的影响正好与平移和缩放相反：卷积第一层对旋转的敏感程度较低，第七层对旋转的敏感程度高。这是因为颜色，纹理这些低级特征旋转前后还是相似的特征；但是目标级别的高级语义特征却不行，例如“特征9”旋转180°后变成了“特征6”. 看最终的识别准确率曲线也能发现旋转0°和350°时模型的识别准确率最高，因为此时旋转后模型最接近原始图片。对于某些存在对称性质的特征，例如原图中的电视，在旋转90°，180°，270°时都有不错的识别准确率。因此，卷积操作不具有良好的旋转不变性。

在这里插入图片描述

总结：

卷积的平移不变性是从滑动遍历这个操作带来的，不管一个特征出现在图中的什么位置，卷积核都可以通过滑动的方式，滑动到特征上面做识别。

卷积的缩放不变性则是从网络的层级结构中获得，不同层的卷积操作拥有不同尺寸的计算感受野。至于旋转不变性缺失找不到对应的操作。

那么，为什么现在的一些成熟项目，例如人脸识别，图像分类等依然可以对旋转的图片做识别呢？这是因为我们用大量的训练数据，旋转不变性可以从大量的训练数据中得到。其实，不仅是旋转不变性，卷积本身计算方法带来的平移不变性和缩放不变性也是脆弱的，大部分也是从数据集中学习到的。深度学习是一种基于数据驱动的算法。

改变卷积核的大小

ZFNet通过对AelxNet可视化发现，由于第一层的卷积核尺寸过大导致某些特征图失效（失效指的是一些值太大或太小的情况，容易引起网络的数值不稳定性，进而导致梯度消失或爆炸。图中的体现是（a）中的黑白像素块）。

在这里插入图片描述

此外，由于第一层的步长过大，导致第二层卷积结果出现棋盘状的伪影（例如（d）中第二小图和倒数第三小图）。因此ZFNet做了对应的改进。即将第一层 11X11步长为4的卷积操作变成 7X7步长为2的卷积。

遮挡对卷积模型的影响

ZFNet通过对原始图像进行矩形遮挡来探究其影响，如下图所示：

在这里插入图片描述

b表示计算遮挡后的图像经过第五个卷积层后得到的feature map 值的总和。红色代表更大的值。由此可以看出来卷积计算后的特征图也是保留了原始数据中不同类别对象在图像中的空间信息。

c左上角的小图是经过第五个卷积后值最大的特征图的deconv可视化结果。由此实例2（可视化结果为英文字母或汉字，但原图的标签是“车轮”）可以看出卷积后值最大的特征图不一定是对分类最有作用的。c中的其他小图是统计数据集中其他图像可以使该卷积核输出最大特征图的deconv可视化结果。

d表示灰色滑块所遮挡的位置对图像正确分类的影响，红色代表分类成功的可能性大。例如博美犬的图像，当灰色滑块遮挡到博美犬的面部时，模型对博美犬的识别准确率大幅度下降。

e表示模型对遮挡后的图像的分类结果是什么。还拿博美犬的例子，灰色遮挡在图片中非狗脸的位置时，都不影响模型将其正确分类为博美犬（大部分都是蓝色标签，除了遮挡滑动到狗脸位置时）。

这个遮挡实验证明，深层的网络提取的是语义信息（例如狗的类属），而不是low-level的空间特征。因此对随机遮挡可以不敏感。

ZFNet的实现代码

import torch.nn as nnimport torch # 与AlexNet有两处不同： 1. 第一次的卷积核变小，步幅减小。 2. 第3，4，5层的卷积核数量增加了。class ZFNet(nn.Module): def __init__(self, num_classes=1000, init_weights=False): super(ZFNet, self).__init__() self.features = nn.Sequential( nn.Conv2d(3, 96, kernel_size=7, stride=2, padding=2), # input[3, 224, 224] output[96, 111, 111] nn.ReLU(inplace=True), nn.MaxPool2d(kernel_size=3, stride=2), # output[96, 55, 55] nn.Conv2d(96, 256, kernel_size=5, padding=2), # output[256, 55, 55] nn.ReLU(inplace=True), nn.MaxPool2d(kernel_size=3, stride=2), # output[256, 27, 27] nn.Conv2d(256, 512, kernel_size=3, padding=1), # output[512, 27, 27] nn.ReLU(inplace=True), nn.Conv2d(512, 1024, kernel_size=3, padding=1), # output[1024, 27, 27] nn.ReLU(inplace=True), nn.Conv2d(1024, 512, kernel_size=3, padding=1), # output[512, 27, 27] nn.ReLU(inplace=True), nn.MaxPool2d(kernel_size=3, stride=2), # output[512, 13, 13] ) self.classifier = nn.Sequential( nn.Dropout(p=0.5), nn.Linear(512 * 13 * 13, 4096), nn.ReLU(inplace=True), nn.Dropout(p=0.5), nn.Linear(4096, 4096), nn.ReLU(inplace=True), nn.Linear(4096, num_classes), ) if init_weights: self._initialize_weights() def forward(self, x): x = self.features(x) x = torch.flatten(x, start_dim=1) x = self.classifier(x) return x def _initialize_weights(self): for m in self.modules(): if isinstance(m, nn.Conv2d): nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu') if m.bias is not None: nn.init.constant_(m.bias, 0) elif isinstance(m, nn.Linear): nn.init.normal_(m.weight, 0, 0.01) nn.init.constant_(m.bias, 0)def zfnet(num_classes): model = ZFNet(num_classes=num_classes) return model

文章中所有的数据和资料，可添加小助手无偿分享~
扫码添加小助手即可无偿获取~

也可以关注“AI技术星球”公众号，关注后回复“221C”获取。

VGGNet：使用块的网络 (2014)

VGGNet由牛津大学计算机视觉组合和Google DeepMind公司研究员一起研发的深度卷积神经网络。它探索了卷积神经网络的深度和其性能之间的关系，通过反复的堆叠33的小型卷积核和22的最大池化层，成功的构建了16~19层深的卷积神经网络。VGGNet获得了ILSVRC 2014年比赛的亚军和定位项目的冠军，在top5上的错误率为7.5%。目前为止，VGGNet依然被用来提取图像的特征。

VGGNet全部使用3*3的卷积核和2*2的池化核，通过不断加深网络结构来提升性能。网络层数的增长并不会带来参数量上的爆炸，因为参数量主要集中在最后三个全连接层中。同时，两个3*3卷积层的串联相当于1个5*5的卷积层，3个3*3的卷积层串联相当于1个7*7的卷积层，即3个3*3卷积层的感受野大小相当于1个7*7的卷积层。但是3个3*3的卷积层参数量只有7*7的一半左右，同时前者可以有3个非线性操作，而后者只有1个非线性操作，这样使得前者对于特征的学习能力更强。

VGGNet作者总结出LRN层作用不大，越深的网络效果越好，1*1的卷积也是很有效的，但是没有3*3的卷积效果好，因为3*3的网络可以学习到更大的空间特征。

VGGNet的网络结构

VGGNet一共有六种不同的网络结构A(VGG11)、A-LRN（VGG11-LRN）、B(VGG13)、C(VGG16-1)、D(VGG16-3)、E(VGG-19)，这6种网络结构相似，都是由5层卷积层、3层全连接层组成，其中区别在于每个卷积层的子层数量不同，从A至E依次增加（子层数量从1到4），总的网络深度从11层到19层（添加的层以粗体显示）。

VGG11-LRN表示在第一层中采用了LRN的VGG-11;VGG16-1表示后三组卷积块中最后一层卷积采用卷积核尺寸为1x1, 相应的VGG16-3表示卷积核尺寸为3x3。

表格中的卷积层参数表示为“conv⟨感受野大小⟩-通道数⟩”，例如con3-128，表示使用3x3的卷积核，通道数为128。为了简洁起见，在表格中不显示ReLU激活功能。

以VGG-16为例，架构图如下：

VGG-16架构：13个卷积层+3个全连接层，前5段卷积网络（标号1-5），最后一段全连接网络（标号6-8），网络总共参数数量大约138M左右。

(1) 输入层(Input)：图像大小为224×224×3

(2) 卷积层1+ReLU：conv3 - 64（卷积核的数量）：kernel size:3 stride:1 pad:1

像素：（224-3+2×1）/1+1=224 输出为224×224×64 64个feature maps

参数：（3×3×3）×64+64=1792

(3) 卷积层2+ReLU：conv3 - 64：kernel size:3 stride:1 pad:1

像素：（224-3+1×2）/1+1=224 输出为224×224×64 64个feature maps

参数： (3×3×64×64)+64=36928

(4) 最大池化层： pool2： kernel size:2 stride:2 pad:0

像素：（224-2）/2 = 112 输出为112×112×64，64个feature maps

参数： 0

(5) 卷积层3+ReLU：.conv3-128:kernel size:3 stride:1 pad:1

像素：（112-3+2×1）/1+1 = 112 输出为112×112×128，128个feature maps

参数： (3×3×64×128)+128=73856

(6) 卷积层4+ReLU：conv3-128:kernel size:3 stride:1 pad:1

像素：（112-3+2×1）/1+1 = 112 输出为112×112×128，128个feature maps

参数： (3×3×128×128)+128=147584

(7) 最大池化层：pool2: kernel size:2 stride:2 pad:0

像素：（112-2）/2+1=56 输出为56×56×128，128个feature maps。

参数： 0

(8) 卷积层5+ReLU：conv3-256: kernel size:3 stride:1 pad:1

像素：（56-3+2×1）/1+1=56 输出为56×56×256，256个feature maps

参数： (3×3×128×256)+256=295168

(9) 卷积层6+ReLU：conv3-256: kernel size:3 stride:1 pad:1

像素：（56-3+2×1）/1+1=56 输出为56×56×256，256个feature maps，

参数： (3×3×256×256)+256=590080

(10) 卷积层7+ReLU：conv3-256: kernel size:3 stride:1 pad:1

像素：（56-3+2×1）/1+1=56 输出为56×56×256，256个feature maps

参数： (3×3×256×256)+256=590080

(11) 最大池化层：pool2: kernel size:2 stride:2 pad:0

像素：（56 - 2）/2+1=28 输出为28×28×256，256个feature maps

参数： 0

(12) 卷积层8+ReLU：conv3-512:kernel size:3 stride:1 pad:1

像素：（28-3+2×1）/1+1=28 输出为28×28×512，512个feature maps

参数： (3×3×256×512)+512=1180160

(13) 卷积层9+ReLU：conv3-512:kernel size:3 stride:1 pad:1

像素：（28-3+2×1）/1+1=28 输出为28×28×512，512个feature maps

参数： (3×3×512×512)+512=2359808

(14) 卷积层10+ReLU：conv3-512:kernel size:3 stride:1 pad:1

像素：（28-3+2×1）/1+1=28 输出为28×28×512，512个feature maps

参数： (3×3×512×512)+512=2359808

(15) 最大池化层：pool2: kernel size:2 stride:2 pad:0，输出为14×14×512，512个feature maps。

像素：（28-2）/2+1=14 输出为14×14×512

参数： 0

(16) 卷积层11+ReLU：conv3-512:kernel size:3 stride:1 pad:1

像素：（14-3+2×1）/1+1=14 输出为14×14×512，512个feature maps

参数： (3×3×512×512)+512=2359808

(17) 卷积层12+ReLU：conv3-512:kernel size:3 stride:1 pad:1

像素：（14-3+2×1）/1+1=14 输出为14×14×512，512个feature maps

参数： (3×3×512×512)+512=2359808

(18) 卷积层13+ReLU：conv3-512:kernel size:3 stride:1 pad:1

像素：（14-3+2×1）/1+1=14 输出为14×14×512，512个feature maps，

参数： (3×3×512×512)+512=2359808

(19) 最大池化层：pool2:kernel size:2 stride:2 pad:0

像素：（14-2）/2+1=7 输出为7×7×512，512个feature maps

参数： 0

(20) 全连接层1+ReLU+Dropout：有4096个神经元或4096个feature maps

像素：1×1×4096

参数：7×7×512×4096 = 102760448

(21) 全连接层2+ReLU+Dropout：有4096个神经元或4096个feature maps

像素：1×1×4096

参数：4096×4096 = 16777216

(22) 全连接层3：有1000个神经元或1000个feature maps

像素：1×1×1000

参数：4096×1000=4096000

(23) 输出层(Softmax)：输出识别结果，看它究竟是1000个可能类别中的哪一个。

VGGNet的代码实现

经典卷积神经网络的基本组成部分是下面的这个序列：

带填充以保持分辨率的卷积层；
非线性激活函数，如ReLU；
汇聚层，如最大汇聚层。

作者使用了带有3×3卷积核、填充为1（保持高度和宽度）的卷积层，和带有2×2汇聚窗口、步幅为2（每个块后的分辨率减半）的最大汇聚层。在下面的代码中，我们定义了一个名为vgg_block的函数来实现一个VGG块。

该函数有三个参数，分别对应于卷积层的数量num_convs、输入通道的数量in_channels和输出通道的数量out_channels

import torchfrom torch import nnfrom d2l import torch as d2ldef vgg_block(num_convs, in_channels, out_channels):    layers = []    for _ in range(num_convs):        layers.append(nn.Conv2d(in_channels, out_channels,                                kernel_size=3, padding=1))        layers.append(nn.ReLU())        in_channels = out_channels    layers.append(nn.MaxPool2d(kernel_size=2,stride=2))    return nn.Sequential(*layers)

VGG网络可以分为两部分：第一部分主要由卷积层和汇聚层组成，第二部分由全连接层组成。

VGG神经网络连接几个VGG块（在vgg_block函数中定义）。其中有超参数变量conv_arch。该变量指定了每个VGG块里卷积层个数和输出通道数。全连接模块则与AlexNet中的相同。

原始VGG网络有5个卷积块，其中前两个块各有一个卷积层，后三个块各包含两个卷积层。第一个模块有64个输出通道，每个后续模块将输出通道数量翻倍，直到该数字达到512。由于该网络使用8个卷积层和3个全连接层，因此它通常被称为VGG-11。

conv_arch = ((1, 64), (1, 128), (2, 256), (2, 512), (2, 512))

下面的代码实现了VGG-11。可以通过在conv_arch上执行for循环来简单实现。

def vgg(conv_arch):    conv_blks = []    in_channels = 1    # 卷积层部分    for (num_convs, out_channels) in conv_arch:        conv_blks.append(vgg_block(num_convs, in_channels, out_channels))        in_channels = out_channels    return nn.Sequential(        *conv_blks, nn.Flatten(),        # 全连接层部分        nn.Linear(out_channels * 7 * 7, 4096), nn.ReLU(), nn.Dropout(0.5),        nn.Linear(4096, 4096), nn.ReLU(), nn.Dropout(0.5),        nn.Linear(4096, 10))net = vgg(conv_arch)

接下来，我们将构建一个高度和宽度为224的单通道数据样本，以观察每个层输出的形状。

X = torch.randn(size=(1, 1, 224, 224))for blk in net:    X = blk(X)    print(blk.__class__.__name__,'output shape:\t',X.shape)

Sequential output shape:     torch.Size([1, 64, 112, 112])Sequential output shape:     torch.Size([1, 128, 56, 56])Sequential output shape:     torch.Size([1, 256, 28, 28])Sequential output shape:     torch.Size([1, 512, 14, 14])Sequential output shape:     torch.Size([1, 512, 7, 7])Flatten output shape:        torch.Size([1, 25088])Linear output shape:         torch.Size([1, 4096])ReLU output shape:   torch.Size([1, 4096])Dropout output shape:        torch.Size([1, 4096])Linear output shape:         torch.Size([1, 4096])ReLU output shape:   torch.Size([1, 4096])Dropout output shape:        torch.Size([1, 4096])Linear output shape:         torch.Size([1, 10])

正如你所看到的，我们在每个块的高度和宽度减半，最终高度和宽度都为7。最后再展平表示，送入全连接层处理。

训练模型

由于VGG-11比AlexNet计算量更大，因此我们构建了一个通道数较少的网络，足够用于训练Fashion-MNIST数据集。

ratio = 4small_conv_arch = [(pair[0], pair[1] // ratio) for pair in conv_arch]net = vgg(small_conv_arch)

除了使用略高的学习率外，模型训练过程与 AlexNet类似。

lr, num_epochs, batch_size = 0.05, 10, 128train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

loss 0.177, train acc 0.934, test acc 0.9112562.3 examples/sec on cuda:0

VGGNet 小结：

VGG网络的特点是利用小的尺寸核代替大的卷积核，然后把网络做深。

结构简洁 : 卷积层+ReLU、最大池化层、全连接层、Softmax输出层。VGGNet的结构十分简洁，由5个卷积层、3个全连接层和1个softmax层构成，层与层之间使用最大池化连接，隐藏层之间使用的激活函数全都是ReLU。

使用小卷积核：使用多个3×3卷积堆叠的作用有两个：一是在不影响感受野的前提下减少了参数；二是增加了网络的非线性,从而提升网络的表达能力。

使用小滤波器：与AlexNet相比，VGGNet在池化层全部采用的是2×2的小滤波器，stride为2。

通道数较多：VGGNet的第一层有64个通道，后面的每一层都对通道进行了翻倍，最多达到了512个通道（ 64-128-256-512-512）。由于每个通道都代表着一个feature map，这样就使更多的信息可以被提取出来。

图像预处理：训练采用多尺度训练（Multi-scale），将原始图像缩放到不同尺寸 S，然后再随机裁切224x224的图片，并且对图片进行水平翻转和随机RGB色差调整，这样能增加很多数据量，对于防止模型过拟合有很不错的效果。

将全连接层转换为卷积层：这个特征是体现在VGGNet的测试阶段。在进行网络测试时，将训练阶段的3个全连接层替换为3个卷积层，使测试得到的网络没有全连接的限制，能够接收任意宽和高的输入。如果后面3个层都是全连接层，那么在测试阶段就只能将测试的图像全部缩放到固定尺寸，这样就不便于多尺度测试工作的开展。

在这里插入图片描述

1*1的卷积层常被用来提炼特征，即多通道的特征组合在一起，凝练成较大通道或者较小通道的输出，而每张图片的大小不变。有时1*1的卷积神经网络还可以用来替代全连接层。

NiN：网络中的网络（2014）

Network In NetWork(NIN) 是由新加坡国立大学的MinLin 等人提出的，在CIFAR-10和CIFAR-100分类任务中达到了SOTA结果。提出mlpconv，引入了1x1卷积和global average pooling，提出NIN，整个模型未使用全连接。模型不够深，迁移能力有待加强。

LeNet、AlexNet和VGG都有一个共同的设计模式：通过一系列的卷积层与汇聚层来提取空间结构特征；然后通过全连接层对特征的表征进行处理。 AlexNet和VGG对LeNet的改进主要在于如何扩大和加深这两个模块。

AlexNet和VGG都是先由卷积层构成的模块充分抽取空间特征，再由全连接层构成的模块来输出分类结果。然而，如果使用了全连接层，可能会完全放弃表征的空间结构，且参数量巨大。因此NiN提出用1*1卷积代替全连接层，串联多个由卷积层和“全连接”层构成的小网络来构建⼀个深层网络。

NiN的网络结构

NIN由三层感知卷积层（MLPConv Layer）构成。

每一层MLPConv Layer内部由若干个局部的全连接层和非线性激活函数组成，代替了传统卷积层中采用的线性卷积核。

线性卷积层和mlpconv都是将局部感受野(local receptive field)映射到输出特征向量。Mlpconv核使用带非线性激活函数的MLP，跟传统的CNN一样，MLP在各个局部感受野中共享参数的，滑动MLP核可以最终得到输出特征图。

优点是：1. 提供了网络层间映射的一种新可能；2. 增加了网络卷积层的非线性能力。

传统的CNN模型先是使用堆叠的卷积层提取特征，输入全连接层(FC)进行分类。这种结构沿袭自LeNet5，把卷积层作为特征抽取器，全连接层作为分类器。但是FC层参数数量太多，很容易过拟合，会影响模型的泛化性能。因此需要用Dropout增加模型的泛化性。

在NIN中，卷积层后不接全连接层(FC)，而是将最后一个的mlpconv的输出每个特征图全局平均池化(global average pooling，GAP) ，而后softmax。

GAP的优点：

加强了特征映射和类别之间的对应，更适合卷积神经网络，特征图可以被解释类别置信度。
GAP层不用优化参数，可以避免过拟合。
GAP对空间信息进行汇总，因此对输入数据的空间变换有更好的鲁棒性。
可以将GAP看做一个结构正则化器，显性地强制特征图映射为概念置信度。

NiN的代码实现

NiN块

卷积层的输入和输出由四维张量组成，张量的每个轴分别对应样本、通道、高度和宽度。另外，全连接层的输入和输出通常是分别对应于样本和特征的二维张量。 NiN的想法是在每个像素位置（针对每个高度和宽度）应用一个全连接层。如果我们将权重连接到每个空间位置，我们可以将其视为1×1卷积层，或作为在每个像素位置上独立作用的全连接层。从另一个角度看，即将空间维度中的每个像素视为单个样本，将通道维度视为不同特征（feature）。

下图说明了VGG和NiN及它们的块之间主要架构差异。 NiN块以一个普通卷积层开始，后面是两个1×1的卷积层。这两个1×1卷积层充当带有ReLU激活函数的逐像素全连接层。第一层的卷积窗口形状通常由用户设置。随后的卷积窗口形状固定为1×1。

在这里插入图片描述

import torchfrom torch import nnfrom d2l import torch as d2ldef nin_block(in_channels, out_channels, kernel_size, strides, padding):    return nn.Sequential(        nn.Conv2d(in_channels, out_channels, kernel_size, strides, padding),        nn.ReLU(),        nn.Conv2d(out_channels, out_channels, kernel_size=1), nn.ReLU(),        nn.Conv2d(out_channels, out_channels, kernel_size=1), nn.ReLU())

NiN模型

最初的NiN网络是在AlexNet后不久提出的，显然从中得到了一些启示。 NiN使用窗口形状为11×11、5×5和3×3的卷积层，输出通道数量与AlexNet中的相同。每个NiN块后有一个最大汇聚层，汇聚窗口形状为3×3，步幅为2。

NiN和AlexNet之间的一个显著区别是NiN完全取消了全连接层。相反，NiN使用一个NiN块，其输出通道数等于标签类别的数量。最后放一个全局平均汇聚层（global average pooling layer），生成一个对数几率（logits）。NiN设计的一个优点是，它显著减少了模型所需参数的数量。然而，在实践中，这种设计有时会增加训练模型的时间。

net = nn.Sequential(    nin_block(1, 96, kernel_size=11, strides=4, padding=0),    nn.MaxPool2d(3, stride=2),    nin_block(96, 256, kernel_size=5, strides=1, padding=2),    nn.MaxPool2d(3, stride=2),    nin_block(256, 384, kernel_size=3, strides=1, padding=1),    nn.MaxPool2d(3, stride=2),    nn.Dropout(0.5),    # 标签类别数是10    nin_block(384, 10, kernel_size=3, strides=1, padding=1),    nn.AdaptiveAvgPool2d((1, 1)),    # 将四维的输出转成二维的输出，其形状为(批量大小,10)    nn.Flatten())

我们创建一个数据样本来查看每个块的输出形状。

X = torch.rand(size=(1, 1, 224, 224))for layer in net:    X = layer(X)    print(layer.__class__.__name__,'output shape:\t', X.shape)

Sequential output shape:     torch.Size([1, 96, 54, 54])MaxPool2d output shape:      torch.Size([1, 96, 26, 26])Sequential output shape:     torch.Size([1, 256, 26, 26])MaxPool2d output shape:      torch.Size([1, 256, 12, 12])Sequential output shape:     torch.Size([1, 384, 12, 12])MaxPool2d output shape:      torch.Size([1, 384, 5, 5])Dropout output shape:        torch.Size([1, 384, 5, 5])Sequential output shape:     torch.Size([1, 10, 5, 5])AdaptiveAvgPool2d output shape:      torch.Size([1, 10, 1, 1])Flatten output shape:        torch.Size([1, 10])

训练模型

lr, num_epochs, batch_size = 0.1, 10, 128train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

loss 0.363, train acc 0.865, test acc 0.8793212.2 examples/sec on cuda:0

NiN小结

NiN使用由一个卷积层和多个1×1卷积层组成的块。该块可以在卷积神经网络中使用，以允许更多的每像素非线性。
NiN去除了容易造成过拟合的全连接层，将它们替换为全局平均汇聚层（即在所有位置上进行求和）。该汇聚层通道数量为所需的输出数量（例如，Fashion-MNIST的输出为10）。
移除全连接层可减少过拟合，同时显著减少NiN的参数。
NiN的设计影响了许多后续卷积神经网络的设计,如ResNet, Inception，GoogLeNet等网络。

文章中所有的数据和资料，可添加小助手无偿分享~
扫码添加小助手即可无偿获取~

也可以关注“AI技术星球”公众号，关注后回复“221C”获取。

GoogLeNet : 含并行连接的网络 (2014)

GoogleNet 网络是14年由 Google 团队提出，斩获该年 ImageNet 竞赛中 Classification Task（分类任务）第一名。之所以名为“GoogLeNet”而非“GoogleNet”,文章说是为了向早期的LeNet致敬。

GoogLeNet吸收了NiN中串联网络的思想，并在此基础上做了改进。这篇论文的一个重点是解决了什么样大小的卷积核最合适的问题。毕竟，以前流行的网络使用小到1×1，大到11×11的卷积核。本文的一个观点是，有时使用不同大小的卷积核组合是有利的。大量的文献表明可以将稀疏矩阵聚类为较为密集的子矩阵来提高计算性能，据此论文提出了名为Inception的结构来实现此目的，既能保持网络结构的稀疏性，又能利用密集矩阵的高计算性能。

GoogLeNet的网络结构

Inception 结构

Inception 结构的主要思路是怎样用密集成分来近似最优的局部稀疏结构。作者首先提出下图这样的基本结构：

对上图做以下说明：

采用不同大小的卷积核意味着不同大小的感受野，最后拼接意味着不同尺度特征的融合；
之所以卷积核大小采用1、3和5，主要是为了方便对齐。设定卷积步长stride=1之后，只要分别设定pad=0、1、2，那么卷积之后便可以得到相同维度的特征，然后这些特征就可以直接拼接在一起了；
文章说很多地方都表明pooling挺有效，所以Inception里面也嵌入了。
网络越到后面，特征越抽象，而且每个特征所涉及的感受野也更大了，因此随着层数的增加，3x3和5x5卷积的比例也要增加。

但是，使用5x5的卷积核仍然会带来巨大的计算量。为此，文章借鉴NIN2，采用1x1卷积核来进行降维。

例如：上一层的输出为100x100x128，经过具有256个输出的5x5卷积层之后(stride=1，pad=2)，输出数据为100x100x256。其中，卷积层的参数为128x5x5x256。假如上一层输出先经过具有32个输出的1x1卷积层，再经过具有256个输出的5x5卷积层，那么最终的输出数据仍为为100x100x256，但卷积参数量已经减少为128x1x1x32 + 32x5x5x256，大约减少了4倍。

具体改进后的Inception Module如下图：

Inception块由四条并行路径组成。前三条路径使用窗口大小为1×1、3×3和5×5的卷积层，从不同空间大小中提取信息。中间的两条路径在输入上执行1×1卷积，以减少通道数，从而降低模型的复杂性。第四条路径使用3×3最大汇聚层，然后使用1×1卷积层来改变通道数。这四条路径都使用合适的填充来使输入与输出的高和宽一致，最后我们将每条线路的输出在通道维度上连结，并构成Inception块的输出。在Inception块中，通常调整的超参数是每层输出通道数。

在这里插入图片描述

GoogLeNet一共使用9个Inception块和全局平均汇聚层的堆叠来生成其估计值。Inception块之间的最大汇聚层可降低维度。第一个模块类似于AlexNet和LeNet，Inception块的组合从VGG继承，全局平均汇聚层避免了在最后使用全连接层。

在这里插入图片描述

GoogLeNet的代码实现

Inception 块

import torchfrom torch import nnfrom torch.nn import functional as Ffrom d2l import torch as d2lclass Inception(nn.Module):    # c1--c4是每条路径的输出通道数    def __init__(self, in_channels, c1, c2, c3, c4, **kwargs):        super(Inception, self).__init__(**kwargs)        # 线路1，单1x1卷积层        self.p1_1 = nn.Conv2d(in_channels, c1, kernel_size=1)        # 线路2，1x1卷积层后接3x3卷积层        self.p2_1 = nn.Conv2d(in_channels, c2[0], kernel_size=1)        self.p2_2 = nn.Conv2d(c2[0], c2[1], kernel_size=3, padding=1)        # 线路3，1x1卷积层后接5x5卷积层        self.p3_1 = nn.Conv2d(in_channels, c3[0], kernel_size=1)        self.p3_2 = nn.Conv2d(c3[0], c3[1], kernel_size=5, padding=2)        # 线路4，3x3最大汇聚层后接1x1卷积层        self.p4_1 = nn.MaxPool2d(kernel_size=3, stride=1, padding=1)        self.p4_2 = nn.Conv2d(in_channels, c4, kernel_size=1)    def forward(self, x):        p1 = F.relu(self.p1_1(x))        p2 = F.relu(self.p2_2(F.relu(self.p2_1(x))))        p3 = F.relu(self.p3_2(F.relu(self.p3_1(x))))        p4 = F.relu(self.p4_2(self.p4_1(x)))        # 在通道维度上连结输出        return torch.cat((p1, p2, p3, p4), dim=1)

GoogLeNet模型

现在，我们逐一实现GoogLeNet的每个模块。第一个模块使用64个通道、7×7卷积层。

b1 = nn.Sequential(nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),                   nn.ReLU(),                   nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

第二个模块使用两个卷积层：第一个卷积层是64个通道、1×1卷积层；第二个卷积层使用将通道数量增加三倍的3×3卷积层。这对应于Inception块中的第二条路径。

b2 = nn.Sequential(nn.Conv2d(64, 64, kernel_size=1),                   nn.ReLU(),                   nn.Conv2d(64, 192, kernel_size=3, padding=1),                   nn.ReLU(),                   nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

第三个模块串联两个完整的Inception块。第一个Inception块的输出通道数为64+128+32+32=256，四个路径之间的输出通道数量比为64:128:32:32=2:4:1:1。

第二个和第三个路径首先将输入通道的数量分别减少到96/192=1/2和16/192=1/12，然后连接第二个卷积层。第二个Inception块的输出通道数增加到128+192+96+64=480，四个路径之间的输出通道数量比为128:192:96:64=4:6:3:2。第二条和第三条路径首先将输入通道的数量分别减少到128/256=1/2和32/256=1/8。

b3 = nn.Sequential(Inception(192, 64, (96, 128), (16, 32), 32),                   Inception(256, 128, (128, 192), (32, 96), 64),                   nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

第四模块更加复杂，它串联了5个Inception块，其输出通道数分别是192+208+48+64=512、160+224+64+64=512、128+256+64+64=512、112+288+64+64=528和256+320+128+128=832。

这些路径的通道数分配和第三模块中的类似，首先是含3×3卷积层的第二条路径输出最多通道，其次是仅含1×1卷积层的第一条路径，之后是含5×5卷积层的第三条路径和含3×3最大汇聚层的第四条路径。其中第二、第三条路径都会先按比例减小通道数。这些比例在各个Inception块中都略有不同。

b4 = nn.Sequential(Inception(480, 192, (96, 208), (16, 48), 64),                   Inception(512, 160, (112, 224), (24, 64), 64),                   Inception(512, 128, (128, 256), (24, 64), 64),                   Inception(512, 112, (144, 288), (32, 64), 64),                   Inception(528, 256, (160, 320), (32, 128), 128),                   nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

第五模块包含输出通道数为256+320+128+128=832和384+384+128+128=1024的两个Inception块。其中每条路径通道数的分配思路和第三、第四模块中的一致，只是在具体数值上有所不同。需要注意的是，第五模块的后面紧跟输出层，该模块同NiN一样使用全局平均汇聚层，将每个通道的高和宽变成1。最后我们将输出变成二维数组，再接上一个输出个数为标签类别数的全连接层。

b5 = nn.Sequential(Inception(832, 256, (160, 320), (32, 128), 128),                   Inception(832, 384, (192, 384), (48, 128), 128),                   nn.AdaptiveAvgPool2d((1,1)),                   nn.Flatten())net = nn.Sequential(b1, b2, b3, b4, b5, nn.Linear(1024, 10))

GoogLeNet模型的计算复杂，而且不如VGG那样便于修改通道数。为了使Fashion-MNIST上的训练短小精悍，我们将输入的高和宽从224降到96，这简化了计算。下面演示各个模块输出的形状变化。

X = torch.rand(size=(1, 1, 96, 96))for layer in net:    X = layer(X)    print(layer.__class__.__name__,'output shape:\t', X.shape)

Sequential output shape:     torch.Size([1, 64, 24, 24])Sequential output shape:     torch.Size([1, 192, 12, 12])Sequential output shape:     torch.Size([1, 480, 6, 6])Sequential output shape:     torch.Size([1, 832, 3, 3])Sequential output shape:     torch.Size([1, 1024])Linear output shape:         torch.Size([1, 10])

训练模型

和以前一样，我们使用Fashion-MNIST数据集来训练我们的模型。在训练之前，我们将图片转换为96×96分辨率。

lr, num_epochs, batch_size = 0.1, 10, 128train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=96)d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

loss 0.254, train acc 0.904, test acc 0.8853570.5 examples/sec on cuda:0

GoogLeNet 小结

Inception块相当于一个有4条路径的子网络。它通过不同窗口形状的卷积层和最大汇聚层来并行抽取信息，并使用1×1卷积层减少每像素级别上的通道维数从而降低模型复杂度。
GoogLeNet将多个设计精细的Inception块与其他层（卷积层、全连接层）串联起来。其中Inception块的通道数分配之比是在ImageNet数据集上通过大量的实验得来的。
GoogLeNet和它的后继者们一度是ImageNet上最有效的模型之一：它以较低的计算复杂度提供了类似的测试精度。

ResNet: 残差网络（2015）

ResNet 网络是在 2015年由微软实验室中的何凯明等几位大神提出，斩获当年ImageNet竞赛中分类任务第一名，目标检测第一名。获得COCO数据集中目标检测第一名，图像分割第一名。

ResNet的主要贡献：

超深的网络结构（超过1000层）。
提出residual（残差结构）模块。
使用Batch Normalization 加速训练（丢弃dropout）。

ResNet的提出背景：

在ResNet提出之前，所有的神经网络都是通过卷积层和池化层的叠加组成的。人们认为卷积层和池化层的层数越多，获取到的图片特征信息越全，学习效果也就越好。但是在实际的试验中发现，随着卷积层和池化层的叠加，不但没有出现学习效果越来越好的情况，反而两种问题：

1、梯度消失和梯度爆炸

梯度消失：若每一层的误差梯度小于1，反向传播时，网络越深，梯度越趋近于0

梯度爆炸：若每一层的误差梯度大于1，反向传播时，网络越深，梯度越来越大

2、退化问题

随着层数的增加，预测效果反而越来越差。如下图所示

为了解决梯度消失或梯度爆炸问题，ResNet论文提出通过数据的预处理以及在网络中使用 BN（Batch Normalization）层来解决。Batch Normalization是指批标准化处理，将一批数据的feature map满足均值为0，方差为1的分布规律。
为了解决深层网络中的退化问题，可以人为地让神经网络某些层跳过下一层神经元的连接，隔层相连，弱化每层之间的强联系。这种神经网络被称为残差网络 (ResNets)。ResNet论文提出了 residual结构（残差结构）来减轻退化问题，下图是使用residual结构的卷积网络，可以看到随着网络的不断加深，效果并没有变差，而是变的更好了。（虚线是train error，实线是test error）

在这里插入图片描述

ResNet 的结构

Residual 的计算方式
residual结构使用了一种shortcut的连接方式，也可理解为捷径。让特征矩阵隔层相加，注意F(X)和X形状要相同，所谓相加是特征矩阵相同位置上的数字进行相加。

在这里插入图片描述

如上，左图是一个正常的块，右图是一个残差块。

让我们聚焦于神经网络局部：如图所示，假设我们的原始输入为x，而希望学出的理想映射为f(x)（作为上方激活函数的输入）。左图虚线框中的部分需要直接拟合出该映射f(x)，而右图虚线框中的部分则需要拟合出残差映射f(x)−x。残差映射在现实中往往更容易优化。以本节开头提到的恒等映射作为我们希望学出的理想映射f(x)，我们只需将右图虚线框内上方的加权运算（如仿射）的权重和偏置参数设成0，那么f(x)即为恒等映射。

实际中，当理想映射f(x)极接近于恒等映射时，残差映射也易于捕捉恒等映射的细微波动。右图是ResNet的基础架构–残差块（residual block）。在残差块中，输入可通过跨层数据线路更快地向前传播。

残差块

在这里插入图片描述

ResNet沿用了VGG完整的3×3卷积层设计。残差块里首先有2个有相同输出通道数的3×3卷积层。每个卷积层后接一个批量规范化层和ReLU激活函数。然后我们通过跨层数据通路，跳过这2个卷积运算，将输入直接加在最后的ReLU激活函数前。这样的设计要求2个卷积层的输出与输入形状一样，从而使它们可以相加。如果想改变通道数，就需要引入一个额外的1×1卷积层来将输入变换成需要的形状后再做相加运算。

两种Residual

左侧残差结构称为BasicBlock(上文刚介绍过),右侧残差结构称为Bottleneck

BottleNeck的结构：

（1）其中第一层的1× 1的卷积核的作用是对特征矩阵进行降维操作，将特征矩阵的深度由256降为64;

第三层的1× 1的卷积核是对特征矩阵进行升维操作，将特征矩阵的深度由64升成256。

降低特征矩阵的深度主要是为了减少参数的个数。

如果采用BasicBlock,参数的个数应该是：256×256×3×3×2=1179648

采用Bottleneck，参数的个数是：1×1×256×64+3×3×64×64+1×1×256×64=69632

（2）先降后升为了主分支上输出的特征矩阵和捷径分支上输出的特征矩阵形状相同，以便进行加法操作。

注：CNN参数个数 = 卷积核尺寸×卷积核深度 × 卷积核组数 = 卷积核尺寸 × 输入特征矩阵深度 × 输出特征矩阵深度

ResNet的代码实现

残差块的实现如下：

import torchfrom torch import nnfrom torch.nn import functional as Ffrom d2l import torch as d2lclass Residual(nn.Module):  #@save    def __init__(self, input_channels, num_channels,                 use_1x1conv=False, strides=1):        super().__init__()        self.conv1 = nn.Conv2d(input_channels, num_channels,                               kernel_size=3, padding=1, stride=strides)        self.conv2 = nn.Conv2d(num_channels, num_channels,                               kernel_size=3, padding=1)        if use_1x1conv:            self.conv3 = nn.Conv2d(input_channels, num_channels,                                   kernel_size=1, stride=strides)        else:            self.conv3 = None        self.bn1 = nn.BatchNorm2d(num_channels)        self.bn2 = nn.BatchNorm2d(num_channels)    def forward(self, X):        Y = F.relu(self.bn1(self.conv1(X)))        Y = self.bn2(self.conv2(Y))        if self.conv3:            X = self.conv3(X)        Y += X        return F.relu(Y)

如下图所示，此代码生成两种类型的网络：一种是当use_1x1conv=False
时，应用ReLU非线性函数之前，将输入添加到输出。另一种是当use_1x1conv=True时，添加通过1×1卷积调整通道和分辨率。

下面我们来查看输入和输出形状一致的情况。

blk = Residual(3,3)X = torch.rand(4, 3, 6, 6)Y = blk(X)Y.shape# torch.Size([4, 3, 6, 6])

我们也可以在增加输出通道数的同时，减半输出的高和宽。

blk = Residual(3,6, use_1x1conv=True, strides=2)blk(X).shape# torch.Size([4, 6, 3, 3])

ResNet模型

ResNet的前两层跟之前介绍的GoogLeNet中的一样：在输出通道数为64、步幅为2的7×7卷积层后，接步幅为2的3×3的最大汇聚层。不同之处在于ResNet每个卷积层后增加了批量规范化层。

b1 = nn.Sequential(nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),                   nn.BatchNorm2d(64), nn.ReLU(),                   nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

GoogLeNet在后面接了4个由Inception块组成的模块。 ResNet则使用4个由残差块组成的模块，每个模块使用若干个同样输出通道数的残差块。第一个模块的通道数同输入通道数一致。由于之前已经使用了步幅为2的最大汇聚层，所以无须减小高和宽。之后的每个模块在第一个残差块里将上一个模块的通道数翻倍，并将高和宽减半。

下面我们来实现这个模块。注意，我们对第一个模块做了特别处理。

def resnet_block(input_channels, num_channels, num_residuals,                 first_block=False):    blk = []    for i in range(num_residuals):        if i == 0 and not first_block:            blk.append(Residual(input_channels, num_channels,use_1x1conv=True, strides=2))        else:            blk.append(Residual(num_channels, num_channels))    return blk

接着在ResNet加入所有残差块，这里每个模块使用2个残差块。

b2 = nn.Sequential(*resnet_block(64, 64, 2, first_block=True))b3 = nn.Sequential(*resnet_block(64, 128, 2))b4 = nn.Sequential(*resnet_block(128, 256, 2))b5 = nn.Sequential(*resnet_block(256, 512, 2))

最后，与GoogLeNet一样，在ResNet中加入全局平均汇聚层，以及全连接层输出。

net = nn.Sequential(b1, b2, b3, b4, b5,                    nn.AdaptiveAvgPool2d((1,1)),                    nn.Flatten(), nn.Linear(512, 10))

每个模块有4个卷积层（不包括恒等映射的1×1卷积层）。加上第一个7×7

卷积层和最后一个全连接层，共有18层。因此，这种模型通常被称为ResNet-18。通过配置不同的通道数和模块里的残差块数可以得到不同的ResNet模型，例如更深的含152层的ResNet-152。虽然ResNet的主体架构跟GoogLeNet类似，但ResNet架构更简单，修改也更方便。这些因素都导致了ResNet迅速被广泛使用。下图描述了完整的ResNet-18。

在这里插入图片描述

在训练ResNet之前，让我们观察一下ResNet中不同模块的输入形状是如何变化的。在之前所有架构中，分辨率降低，通道数量增加，直到全局平均汇聚层聚集所有特征。

X = torch.rand(size=(1, 1, 224, 224))for layer in net:    X = layer(X)    print(layer.__class__.__name__,'output shape:\t', X.shape)

Sequential output shape:     torch.Size([1, 64, 56, 56])Sequential output shape:     torch.Size([1, 64, 56, 56])Sequential output shape:     torch.Size([1, 128, 28, 28])Sequential output shape:     torch.Size([1, 256, 14, 14])Sequential output shape:     torch.Size([1, 512, 7, 7])AdaptiveAvgPool2d output shape:      torch.Size([1, 512, 1, 1])Flatten output shape:        torch.Size([1, 512])Linear output shape:         torch.Size([1, 10])

训练模型

同之前一样，我们在Fashion-MNIST数据集上训练ResNet。

lr, num_epochs, batch_size = 0.05, 10, 256train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=96)d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

loss 0.011, train acc 0.997, test acc 0.9154701.1 examples/sec on cuda:0

小结

学习嵌套函数（nested function）是训练神经网络的理想情况。在深层神经网络中，学习另一层作为恒等映射（identity function）较容易（尽管这是一个极端情况）。

残差映射可以更容易地学习同一函数，例如将权重层中的参数近似为零。

利用残差块（residual blocks）可以训练出一个有效的深层神经网络：输入可以通过层间的残余连接更快地向前传播。

残差网络（ResNet）对随后的深层神经网络设计产生了深远影响。

DenseNet: 稠密连接网络（2017）

回想一下任意函数的泰勒展开式（Taylor expansion），它把这个函数分解成越来越高阶的项。在x接近0时，

同样, ResNet将函数展开为

也就是说，ResNet将f ff分解为两部分：一个简单的线性项和一个复杂的非线性项。那么再向前拓展一步，如果我们想将f ff 拓展成超过两部分的信息呢？一种方案便是DenseNet。

在这里插入图片描述

如图所示，ResNet和DenseNet的关键区别在于，DenseNet输出是连接（用图中的[,]表示）而不是如ResNet的简单相加。因此，在应用越来越复杂的函数序列后，我们执行从x到其展开式的映射：

最后，将这些展开式结合到多层感知机中，再次减少特征的数量。实现起来非常简单：我们不需要添加术语，而是将它们连接起来。 DenseNet这个名字由变量之间的“稠密连接”而得来，最后一层与之前的所有层紧密相连。稠密连接如下图所示。

在这里插入图片描述

稠密网络主要由2部分构成：稠密块（dense block）和过渡层（transition layer）。前者定义如何连接输入和输出，而后者则控制通道数量，使其不会太复杂。

DenseNet 的网络结构

DenseNet和Conv、ResNet的对比

在标准的卷积网络中，输入图像经过多次卷积并获得高层特征。

网络在第l ll层的输出为：

其中H代表的是非线性转换函数，它是一个组合操作，其可能包括一系列的BN(Batch Normalization),RELU,Pooling 以及Conv操作。

在ResNet中，提出了恒等映射（ identity mapping）,使用了元素加法(Element-wise addition)。有助于训练过程中的梯度的反向传播，从而能够训练出更深的网络。

对于ResNet, 增加了来自上一层的输入：

在DenseNet中：采用了密集连接的机制，即相互连接所有的层，每个层都会与前面所有的层在通道的维度上连接在一起（Channel-wise concatenation）, 实现特征重用，作为下一层的输入。这样不但减缓了梯度消失的现象，也使其可以在参数和计算量更少的情况下实现比ResNet更优的性能。

在DenseNet中，会连接前面所有层作为输入：

下图展示了前向传播过程中的连接概念: 特征传递的方式是直接将前面所有层的特征Concat后传到下一层，而不是前面层都要有一个箭头指向后面的所有层。

在这里插入图片描述

DenseNet的网络结构
DenseNet的密集连接方式需要特征图大小保持一致，所以DenseNet网络中使用的是DenseBlock+Transition 的结构。

在这里插入图片描述

DenseBlock 是包含很多层的模块，在每个dense block中，特征映射的大小是相同的，因此它们可以很容易地concat在一起。层（dense layer）与层之间采用的是密集连接的方式。

Transition Layer 1×1 Conv和2×2 average pooling被用作两个相邻dense block之间的过渡层（Transition Layer）。在最后一个dense block的末尾，执行全局平均池化，然后附加一个softmax分类器。

Denseblock 优缺点

优点：

1、更强的梯度流动

由于密集连接方式，DenseNet促进了梯度的反向传播，使得网络更容易训练。由于每层可以直达最后的误差信号，实现了隐式的“deep supervision”。误差信号可以很容易地传播到较早的层，所以较早的层可以从最终分类层获得直接监督。

减轻了vanishing-gradient（梯度消失）过梯度消失问题在网络深度越深的时候越容易出现，原因就是输入信息和梯度信息在很多层之间传递导致的，而现在这种dense connection相当于每一层都直接连接input和loss，因此就可以减轻梯度消失现象，这样更深网络不是问题。

2、减少参数与提升计算效率

对于每一层，ResNet中的参数数量与C×C成正比，DenseNet中的参数数量与l×k×k成正比。由于k远小于C, 因此DenseNet 比 ResNet要小很多。

3、更多样化的特征

由于DenseNet中的每一层都接收前面所有的层作为输入，因此特征更加多样化，往往具有更丰富的模式。

4、保存了低纬度的特征

在标准的卷积网络中，最终输出只会利用提取最高层次的特征

而在DenseNet中，它使用了不同层次的特征，倾向于给出更平滑的决策边界。这也解释了为什么训练数据不足时DenseNet表现依旧良好。

不足：

DenseNet的不足在于由于需要进行多次Concatnate操作，数据需要被复制多次，显存容易增加得很快，需要一定的显存优化技术。另外，DenseNet是一种更为特殊的网络，ResNet则相对一般化一些，因此ResNet的应用范围更广泛。

DenseNet的代码实现

DenseBlock的实现
DenseNet使用了ResNet改良版的“批量规范化、激活和卷积”架构。我们首先实现一下这个架构。

import torchfrom torch import nnfrom d2l import torch as d2ldef conv_block(input_channels, num_channels):    return nn.Sequential(        nn.BatchNorm2d(input_channels), nn.ReLU(),        nn.Conv2d(input_channels, num_channels, kernel_size=3, padding=1))

一个denseblock由多个卷积块组成，每个卷积块使用相同数量的输出通道。然而，在前向传播中，我们将每个卷积块的输入和输出在通道维上连结。

class DenseBlock(nn.Module):    def __init__(self, num_convs, input_channels, num_channels):        super(DenseBlock, self).__init__()        layer = []        for i in range(num_convs):            layer.append(conv_block(                num_channels * i + input_channels, num_channels))        self.net = nn.Sequential(*layer)    def forward(self, X):        for blk in self.net:            Y = blk(X)            # 连接通道维度上每个块的输入和输出            X = torch.cat((X, Y), dim=1)        return X

在下面的例子中，我们定义一个有2个输出通道数为10的DenseBlock。使用通道数为3的输入时，我们会得到通道数为3+2×10=23的输出。卷积块的通道数控制了输出通道数相对于输入通道数的增长，因此也被称为增长率（growth rate）。

blk = DenseBlock(2, 3, 10)X = torch.randn(4, 3, 8, 8)Y = blk(X)Y.shape

Transition layer的实现
由于每个稠密块都会带来通道数的增加，使用过多则会过于复杂化模型。而过渡层可以用来控制模型复杂度。它通过1×1卷积层来减小通道数，并使用步幅为2的平均汇聚层减半高和宽，从而进一步降低模型复杂度。

def transition_block(input_channels, num_channels):    return nn.Sequential(        nn.BatchNorm2d(input_channels), nn.ReLU(),        nn.Conv2d(input_channels, num_channels, kernel_size=1),        nn.AvgPool2d(kernel_size=2, stride=2))

对上一个例子中稠密块的输出使用通道数为10的过渡层。此时输出的通道数减为10，高和宽均减半。

blk = transition_block(23, 10)blk(Y).shape # torch.Size([4, 10, 4, 4])

DenseNet模型的实现

我们来构造DenseNet模型。DenseNet首先使用同ResNet一样的单卷积层和最大汇聚层。

b1 = nn.Sequential(    nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),    nn.BatchNorm2d(64), nn.ReLU(),    nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

接下来，类似于ResNet使用的4个残差块，DenseNet使用的是4个稠密块。与ResNet类似，我们可以设置每个稠密块使用多少个卷积层。这里我们设成4，从而与 ResNet-18保持一致。稠密块里的卷积层通道数（即增长率）设为32，所以每个稠密块将增加128个通道。

在每个模块之间，ResNet通过步幅为2的残差块减小高和宽，DenseNet则使用过渡层来减半高和宽，并减半通道数。

# num_channels为当前的通道数num_channels, growth_rate = 64, 32num_convs_in_dense_blocks = [4, 4, 4, 4]blks = []for i, num_convs in enumerate(num_convs_in_dense_blocks):    blks.append(DenseBlock(num_convs, num_channels, growth_rate))    # 上一个稠密块的输出通道数    num_channels += num_convs * growth_rate    # 在稠密块之间添加一个转换层，使通道数量减半    if i != len(num_convs_in_dense_blocks) - 1:        blks.append(transition_block(num_channels, num_channels // 2))        num_channels = num_channels // 2

与ResNet类似，最后接上全局汇聚层和全连接层来输出结果。

net = nn.Sequential(    b1, *blks,    nn.BatchNorm2d(num_channels), nn.ReLU(),    nn.AdaptiveAvgPool2d((1, 1)),    nn.Flatten(),    nn.Linear(num_channels, 10))

训练模型
由于这里使用了比较深的网络，本节里我们将输入高和宽从224降到96来简化计算。

lr, num_epochs, batch_size = 0.1, 10, 256train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=96)d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

loss 0.140, train acc 0.950, test acc 0.8385569.1 examples/sec on cuda:0

DenseNet小结

在跨层连接上，不同于ResNet中将输入与输出相加，稠密连接网络（DenseNet）在通道维上连结输入与输出。
DenseNet的主要构建模块是稠密块和过渡层。
在构建DenseNet时，我们需要通过添加过渡层来控制网络的维数，从而再次减少通道的数量。

原文链接：https://blog.csdn.net/zyw2002/article/details/128885216

文章中所有的数据和资料，可添加小助手无偿分享~
扫码添加小助手即可无偿获取~

也可以关注“AI技术星球”公众号，关注后回复“221C”获取。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

软件开发中的代码跨平台兼容性评估：基于编译器与运行时环境的自动检测与优化策略

2048 AI社区

（三）AI量化交易实战：从数据基石到多策略矩阵的全面解析—— 详解五大策略体系与十五个核心模块

2048 AI社区

拥抱直觉与创造力：走进VibeCoding的新世界

摘要： VibeCoding（氛围编码）是一种新兴的编程范式，开发者通过自然语言描述意图，由AI生成代码，实现从“如何实现”到“想要什么”的转变。它降低技术门槛，强调创意与架构设计，适用于快速原型开发、教育、调试、自动化任务等场景。与传统编程相比，VibeCoding更注重宏观构思和迭代探索，但开发者仍需编程知识评估AI输出。这种模式并非取代传统编程，而是将开发者从细节中解放，转向更高阶的创造性角