从神经网络到卷积神经网络

多层神经网络的具体架构称为前馈网络，因为在输人层和输出层之间的连续层中，数据一直向前馈送。左边的为最大池化，他先将4*4的矩阵分成4个2*2的矩阵，然后在每个矩阵中选择一个最大的数进行保留，从而生成了一个新的2*2的矩阵，右边的为平均池化，他同样分成了4个2*2的矩阵，但这里是求出了平均数经行保留，从而生成了一个新的2*2的矩阵。上面的是一个神经网络，下面的是卷积神经网络（LeNet）的标准模型结

眰恦319

1144人浏览 · 2025-03-15 11:35:39

眰恦319 · 2025-03-15 11:35:39 发布

作者为卷积神经网络的初学者，各位读者如发现本文中有任何不对的地方欢迎评论区留言讨论

一、前言

人工神经网络（ANN），简称神经网络（缩写NN）是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对复杂函数进行估计或近似。

人工神经网络模拟了这种生物机制，其中的计算单元称为神经元。神经元的每一个输入都包含一个权重，权重影响着神经元中的函数计算。

二、神经网络的基本架构

神经网络可分为单层神经网络和多层神经网络。在单层神经网络中，输入通过线性函数的变体直接映射到输出。这种简单的神经网络实例也被称为感知机。在多层神经网络中，神经元是分层排列的，其中输入层和输出层被一组隐藏层隔开。这种分层架构的神经网络也被称为前馈网络。

（1）单层神经网络

最简单的神经网络称为感知机。感知机中包含一个输人层和一个输出节点，其基本架

构如图1.3所示。这里的ω为权重，b为偏置，g为激活函数。

y=g(x1×ω1+x2×ω2+x3×ω3+x4×ω4+x5×ω5)

假定我们已知训练数据的观测值，感知机的目的是通过这些数据进行训练，从而预测没有被观测的实例的分类。

（2）多层神经网络

多层神经网络包含多个计算层，额外的中间层（在输人层和输出层之间）称为隐藏层，中间层的计算过程对用户不可见。多层神经网络的具体架构称为前馈网络，因为在输人层和输出层之间的连续层中，数据一直向前馈送。前馈网络的默认架构假定一层中的所有节点都连接到下一层中的所有节点。

三、神经网络的流程

1. 数据预处理与输入构建

将原始数据（如图像、文本）进行归一化、标准化及向量化处理，转化为神经网络可识别的张量格式。例如，图像需展平为向量或保留空间结构的3D张量。数据划分为训练集（用于参数调整）与测试集（用于性能评估）。

2. 模型结构与参数初始化

设计网络层（如全连接层、卷积层）并选择激活函数（如ReLU用于隐藏层，Softmax用于分类输出层）。权重采用随机初始化（如He或Xavier初始化），偏置初始化为零。

3. 前向传播与损失计算

输入数据逐层进行线性变换（z=Wx+b）和非线性激活（如ReLU(z)），最终输出预测值。通过损失函数（如MSE回归、交叉熵分类）量化预测与真实值的偏差。

4. 反向传播与参数优化

利用链式法则计算损失对参数的梯度，通过优化器（如SGD、Adam）沿梯度反方向更新权重。分批次训练提升内存效率与梯度稳定性。

5. 迭代训练与终止条件

重复前向传播、反向传播与参数更新，直至满足以下条件之一：

（1）损失值降至阈值（如MSE < 0.01）；

（2）验证集准确率稳定（早停法）；

（3）达到预设迭代次数

6. 模型验证与应用

使用测试集评估模型泛化性能，计算准确率、召回率等指标。训练完成的模型可部署至实际场景（如分类、检测任务）。

四、激活函数

概念：激活函数是神经网络中神经元节点处理输入信号的核心组件，其本质是一个非线性数学转换器。具体而言，输入层神经元直接将原始数据传递给后续层，而隐藏层和输出层的每个神经元会将前一层输出的线性组合（加权和加偏置）通过激活函数进行非线性映射，再将结果传递到下一层。这种非线性映射能力是神经网络超越简单线性模型的关键。

核心作用：

（1）非线性建模

通过引入非线性响应（如Sigmoid的S形曲线、ReLU的阈值截断），激活函数使神经网络能够学习复杂的数据模式（如曲线分类边界），从而逼近任意连续函数（符合通用近似定理）。

（2）动态特征筛选

不同激活函数对输入信号有差异化的处理机制。例如，ReLU通过抑制负值强化正相关特征，而Sigmoid将输入压缩为概率值，适用于二分类输出。

（3）梯度调控与训练优化

激活函数的导数特性直接影响反向传播的效率。例如，ReLU在正区间的梯度恒为1，加速收敛；而Sigmoid的梯度易消失，可能导致深层网络训练停滞。

要求：

1、非线性

线性激活函数（如恒等变换）无法扩展模型的假设空间，导致多层网络退化为单层线性模型。

2、可微性

需存在导数或次导数以支持梯度下降优化。例如，ReLU在零点不可导，但可通过次梯度（如取0或1）解决。

3、计算高效性

实际应用中需平衡计算复杂度。例如，ReLU的阈值判断比Sigmoid的指数运算更高效，适合大规模网络。

常用的激活函数： Sigmoid、Tanh、ReLU、Leaky ReLU、ELU

五、损失函数

概念：损失函数（Loss Function）是机器学习模型训练中的核心优化目标，其本质是通过数学方法量化模型预测值与真实值之间的偏差。在神经网络中，参数优化的核心逻辑是通过梯度下降等算法不断缩小这种偏差，最终使模型具备可靠的预测能力。

主要作用：

（1）模型性能评估基准

损失函数通过数值化指标（如均方误差、交叉熵）衡量模型预测结果与真实标签的偏离程度。例如，在图像分类任务中，交叉熵损失可量化预测概率分布与真实one-hot编码的差异。该指标直接反映模型在训练集和验证集上的泛化能力，为模型调优提供客观依据。

（2）参数优化的数学导向

在训练过程中，模型通过反向传播算法计算损失函数对参数的梯度，指导权重更新方向。例如，PyTorch的自动微分机制可高效计算复杂网络中各层参数的梯度。

优化算法（如Adam、SGD）则根据梯度信息调整参数，使损失函数收敛到局部最小值，从而实现模型性能的逐步提升。

（3）任务适配与特征学习

回归任务：通常采用均方误差（MSE）或平均绝对误差（MAE）。MSE通过平方项放大异常值影响，适合对噪声敏感的场景；MAE对离群点更具鲁棒性，但梯度更新效率较低。

分类任务：交叉熵损失结合Softmax函数将输出转化为概率分布，其数学特性（如凸性）可加速分类边界的学习；而支持向量机使用的铰链损失则通过稀疏性筛选关键样本。

生成任务：KL散度损失衡量生成分布与真实分布的差异，广泛应用于GAN等生成模型。

（4）模型泛化能力调控

损失函数常与正则化项（如L1/L2惩罚项）结合，形成结构风险最小化框架。例如，L2正则化通过限制权重幅值缓解过拟合，其效果可视为在损失函数中增加参数的平方和项。

常用的损失函数：绝对值|y-f(x)|、均方误差、交叉熵等等

当两条线越趋近，即两条线之间的面积越小，其损失也就越小。

权重（Weight)

权重也就是神经网络模型上的W，是指神经网络中用于计算和估计输入和输出样本之间关系的参数。它是整个神经网络模型中最主要的参数，相当于神经网络的“智慧”，而神经网络又是机器学习中最大众化算法之一。权重可以由人为设定，也可以通过反向传播算法自动设定。通过计算每一权重参数，可以了解整个神经网络的整体表现，从而使预测结果更加精准。

六、卷积神经网络是什么？

卷积神经网络（Convolutional Neural Network，CNN）是一种在计算机视觉领域取得了巨大成功的深度学习模型。它们的设计灵感来自于生物学中的视觉系统，旨在模拟人类视觉处理的方式。在过去的几年中，CNN已经在图像识别、目标检测、图像生成和许多其他领域取得了显著的进展，成为了计算机视觉和深度学习研究的重要组成部分。

卷积神经网络最初是受到视觉系统的神经机制启发、针对二维形状的识别设计的一种生物物理模型，在平移情况下具有高度不变性，在缩放和倾斜情况下也具有一定的不变性。这种生物物理模型集成了“感受野”的思想，可以看作一种特殊的多层感知器或前馈神经网络，具有局部连接、权值共享的特点，其中大量神经元按照一定方式组织起来对视野中的交叠区域产生反应。

七、卷积神经网络比神经网络多了什么？

上面的是一个神经网络，下面的是卷积神经网络（LeNet）的标准模型结构，通过对比模型结构可发现，卷积神经网络额外引入了卷积层和池化层，那卷积层是什么，池化层又是什么呢？

至于为什么会有多个卷积层和池化层，这就要看具体需求了，显然易见，卷积层和池化层越多，数据处理也就越复杂。

八、卷积层

对于一张彩色图片，包含了R、G、B三个通道，即红色、绿色、蓝色三个通道叠加而成，每个通道其实也相当于一张单通道的图片，这张三通道的图片的特征是由这三个通道的特征组合而成。

而在卷积神经网络中，一个卷积层可以包含很多卷积面。卷积面又称为卷积特征图或卷积图，有时也称为特征图。每个卷积面都是根据输入、卷积核和激活函数来计算的。卷积面的输入通常是一副或多幅图像。卷积核是一个矩阵（或张量），又称为卷积滤波器，简称滤波器。激活函数有很多不同的选择，但一般选为sigmoid函数或校正线性单元（ReLU）。

假设我们输入的是一个8*8的图像，用矩阵x表示，卷积核是大小为3*3的矩阵w，偏置为b，那么可以得到其计算过程为：

h=x*w+b

如果是输入了多个通道，则将所有的图像与卷积核的乘积相加，最后再加上偏置b。

步长（Stride）
步长是卷积核在输入数据（如图像）上滑动时的间隔像素数。它直接影响输出特征图的尺寸和计算效率：

步长=1：卷积核逐像素滑动，输出尺寸最大，保留细节信息但计算成本高。

步长≥2：卷积核跳跃滑动，输出尺寸减小，降低计算量但可能丢失局部特征。

公式：输出尺寸 = （向下取整）。

应用场景

大尺寸输入：步长=2常用于浅层网络，快速压缩特征图尺寸（如ResNet的初始卷积层）。

实时推理：增大步长可减少模型参数量，提升推理速度（如MobileNet中的深度可分离卷积）。

填充（Padding）

填充是在输入数据边缘添加虚拟像素，用于控制输出尺寸和保留边缘信息：

（1）Valid（无填充）：不添加像素，输出尺寸必然缩小（输入尺寸 - 卷积核尺寸 + 1）。

（2）Same（零填充）：添加零值像素，确保输出尺寸与输入尺寸相同，需满足填充量=2卷积核尺寸−1（仅奇数尺寸卷积核适用）。

（3）扩展填充：反射填充（复制边缘像素）或重复填充（重复边界值），用于减少零填充导致的信息损失。

核心作用

保持特征图尺寸：避免深层网络因多次卷积导致特征图过小（如VGG网络的连续3×3卷积）。

边缘特征保留：防止图像边缘信息在卷积中被忽略（如目标检测中的物体边界定位）。

下图是对卷积过程的动态展示

九、池化层

在卷积神经网络中，下采样过程又称为池化过程。相应地，平均下采样和最大下采样又分别称为平均池化和最大池化。池化面的输入既可以是卷积面，也可以是池化面。

左边的为最大池化，他先将4*4的矩阵分成4个2*2的矩阵，然后在每个矩阵中选择一个最大的数进行保留，从而生成了一个新的2*2的矩阵，右边的为平均池化，他同样分成了4个2*2的矩阵，但这里是求出了平均数经行保留，从而生成了一个新的2*2的矩阵。

十、卷积神经网络的优势与应用场景

1. 核心优势

局部感知与参数共享：卷积层通过局部连接和权值共享大幅减少参数量，避免传统全连接网络的计算冗余。

平移不变性：池化操作使模型对目标的位置变化具有鲁棒性。

层次化特征提取：浅层卷积核捕捉边缘、纹理等低级特征，深层网络学习语义信息（如物体部件、整体形状）。

2. 典型应用场景

图像分类（如ResNet、VGG）

目标检测（如Faster R-CNN、YOLO）

语义分割（如U-Net）

图像生成（如GAN中的生成器）

视频分析（行为识别、时序建模）

3. 扩展变体

深度可分离卷积（MobileNet）

空洞卷积（扩大感受野，用于语义分割）

注意力机制（如SENet、Transformer+CNN混合模型）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

Daggr：介于 Gradio 和 ComfyUI 之间的 AI 工作流可视化方案

Daggr 是一个用于构建 AI 工作流的开源 Python 库。工作流通过代码定义，使用标准 Python 语法，无需 DSL 或 YAML 配置。Daggr 的核心功能是从代码生成可视化画布。这张画布是一个实时更新、可交互检查的有向图，精确反映代码的执行状态。每个计算步骤对应一个节点，节点之间的数据流向清晰可见，所有中间输出均可点击查看、单独重跑或回溯历史。一个关键的设计决策是：可视化层仅作为