模式识别与机器学习复习笔记（下-深度学习篇）

本文是国科大《模式识别与机器学习》课程的简要复习，基于课件然后让ai帮忙补充了一些解释。本文是第十三章，是最后一章。本文章更多是对于课件的知识点的记录总结，找了点例题和讲解，建议结合其他资料或者课件来看。

Pith

1158人浏览 · 2026-01-24 21:48:06

Pith · 2026-01-24 21:48:06 发布

序

第十三章深度学习

本章旨在从传统机器学习过渡到深度学习，重点在于理解神经网络的结构演进、卷积神经网络（CNN）的特征提取机制、Transformer 的注意力机制以及生成式模型的基本原理。

13.1 神经元与网络基础

13.1.1 人工神经元（M-P 模型）

神经元是神经网络的最小单位。它模仿生物神经元接收信号、加权求和、判断是否超过阈值并输出。

$f\left(\sum_{i=1}^{n} w_i x_i + b\right)$

$x_i$ ：输入特征。
$w_i$ ：权重（Weight），代表输入的重要性。
$b$ ：偏置（Bias），调整激活的难易程度。
$f$ ：激活函数，引入非线性（如 Sigmoid, ReLU）。

直观理解：神经元就像一个“投票过滤器”。权重是各评委的话语权，偏置是个人的偏见底色，激活函数则是决定“最终是否把这件事说出去”的门槛。

13.1.2 激活函数对比表

激活函数	公式	特点	考试注意点
Sigmoid	$1 / (1 + e^{-x})$	输出在 (0, 1) 之间	容易产生梯度消失
ReLU	$ma x (0, x)$	计算极其简单，单侧抑制	深度学习中最主流，解决梯度消失
Softmax	$exi/∑exje^{x_i} / \sum e^{x_j}$	所有输出和为 1	用于多分类问题的输出层

13.2 深度学习的训练核心：反向传播 (BP)

反向传播算法是考试中理解“网络如何更新”的关键。你不需要推导偏导数，但要明白它的逻辑步骤。

核心逻辑：

前向传播：数据进去，算出一个预测值。
计算误差：预测值和真实值（Label）差了多少。
误差反传：根据误差，通过链式法则从后往前，告诉每一层的每一个权重 $w$ ：你刚才对这个错误的贡献是多少。
参数更新：权重根据分配到的“责任”进行微调。

直观理解：就像一个生产线，最后成品不合格。质量检查员从成品往回溯，发现是最后一道工序偏了 2mm，倒数第二道工序偏了 1mm，于是每道工序都按比例调整。

13.3 卷积神经网络 (CNN)

13.3.1 为什么用 CNN 而不是全连接 (MLP)？

如果用普通网络处理一张 12MP 的图片，参数量会达到几十亿（3.6B），根本无法训练。CNN 借鉴了生物视觉的两个特性：

局部连接：神经元只看图片的一小块（“鸟喙”检测器）。
权值共享：同一个检测器可以扫过整张图（左上的鸟喙和中间的鸟喙可以用同一个卷积核找）。

13.3.2 核心组件与计算

考试考点：输出尺寸计算。

计算公式：

已知输入大小 $I$ ，卷积核大小 $K$ ，步长（Stride） $S$ ，填充（Padding） $P$ ：

$\frac{I - K + 2P}{S} + 1$

卷积层：提取特征。
池化层 (Pooling)：压缩特征，减小尺寸（通常有 Max Pooling 和 Mean Pooling），它没有参数需要学习。
全连接层 (Flatten/FC)：把提取到的特征拉直，进行最后的分类。

另一种形式是：

给定输入图像大小 $\times H$ ，卷积核大小 $\times K$ ，步长 $S$ ，填充 $P$ 。

$W$ （Width）是它的宽度， $H$ （Height）是它的高度。

$Wout=⌊Win−K+2PS⌋+1W_{out} = \lfloor \frac{W_{in} - K + 2P}{S} \rfloor + 1$ $W_{in}$ ：输入宽度（高度同理）。
$K$ ：卷积核（Filter）大小。
$P$ ：填充（Padding）层数（通常是为了保持尺寸或处理边缘）。
$S$ ：步长（Stride）。

如果输入图像的高度是 $H_{in}$ ，那么输出高度 $H_{out}$ 的计算公式为： $Hout=⌊Hin−F+2PS⌋+1H_{out} = \lfloor \frac{H_{in} - F + 2P}{S} \rfloor + 1$

$H_{in}$ ：输入图像的原始高度（像素数）。 $F$ ：卷积核在垂直方向上的大小（通常卷积核是正方形 $\times F$ ，所以高也是 $F$ ）。 $P$ ：垂直方向的填充。 $S$ ：垂直方向的步长。

如果题目说 “Same Padding”，意思就是输出尺寸和输入一致。如果 $S = 1$ ，那么 $P = (K - 1) /2$ 。

参数量计算（权重数）公式：
$Total_Params=(F×F×Cin+1)×CoutTotal\_Params = (F \times F \times C_{in} + 1) \times C_{out}$

$\times F$ ：卷积核大小。
$C_{in}$ ：输入通道数（如 RGB 为 3）。
$C_{out}$ ：输出通道数（即卷积核的个数）。
$+ 1$ ：表示每个卷积核有一个偏置 (Bias)。

参数量就像是你要买多少个“滤镜”。每个滤镜的大小是 $\times F$ ，它要处理之前所有层（ $C_{in}$ ）留下的信息，最后你想得到多少个新特征（ $C_{out}$ ），就得准备多少套滤镜。

例题：

题目：输入图片尺寸为 $32 \times 32$ ，使用 $\times 5$ 的卷积核，步长 $S = 1$ ，填充 $P = 2$ 。请计算输出特征图的尺寸。

步骤1：识别参数。 $I = 32, K = 5, S = 1, P = 2$ 。

步骤2：带入公式。 $\times 2) / 1 + 1$ 。

步骤3：计算结果。 $O = (31) /1 + 1 = 32$ 。

结论：输出依然是 $32 \times 32$ （这种 Padding 方式常被称为 Same Padding）。

例题2
题目：输入图像为 $224 \times 224 \times 3$ （RGB），第一层使用 64 个 $\times 3$ 的卷积核，步长为 2，填充为1。

计算输出特征图的尺寸。
计算该层的总参数量。

步骤 1：算尺寸带入公式： $Wout=(224−3+2×1)/2+1=223/2+1=111.5+1≈112W_{out} = (224 - 3 + 2 \times 1) / 2 + 1 = 223 / 2 + 1 = 111.5 + 1 \approx 112$ 。输出尺寸为： $112 \times 112 \times 64$ 。

步骤 2：算参数单个卷积核参数 = $\times 3 \times 3 (\text{通道}) + 1 (\text{偏置}) = 28$ 。总参数 = $28 \times 64 = 1792$ 。

13.4 Transformer 机制

Transformer 彻底改变了处理序列（如文字、视频）的方式。其核心是自注意力机制 (Self-Attention)。

13.4.1 自注意力机制的三个矩阵

Query (Q)：我去查谁？
Key (K)：谁等着被查？
Value (V)：查到了带走什么信息？

直观理解：这就像在一个派对里。你想了解某人（Q），你扫视全场人的名牌（K），计算你和每个人相似度（注意力权重），最后你根据相似度高低，吸收了他们身上的故事（V）。
或者说：

Query ( $Q$ )：代表“我要找什么”。
Key ( $K$ )：代表“我有什么标签”。
Value ( $V$ )：代表“我实际的内容”。

计算三部曲：
算得分： $\cdot K^T$ （计算当前词和所有词的相关度）。
归一化： $Attention_Weights=Softmax(Scoredk)Attention\_Weights = \text{Softmax}(\frac{Score}{\sqrt{d_k}})$ （把得分变成概率，总和为 1）。
加权和： $\sum (Weights \times V)$ （根据相关度，把大家的 V 收集起来）。

13.4.2 为什么比 RNN 好？

并行计算：RNN 必须一个字一个字读，Transformer 可以一次性看一整句话。
长程依赖：Transformer 无论两个字隔多远，都能通过 $\cdot K$ 直接建立联系。

13.5 生成式模型 (Generative Models)

13.5.1 生成模型对比表

模型类型	核心思想	优缺点
VAE (变分自编码器)	学习数据的分布（均值和方差）	结果容易模糊
GAN (生成对抗网络)	生成器和判别器“左右互搏”	效果逼真但训练不稳定
Diffusion (扩散模型)	先加噪把图毁掉，再学习如何去噪还原	效果最好（Stable Diffusion），但速度慢