nn.InstanceNorm2d和nn.BatchNorm2d比较

和都是 PyTorch 中常用的归一化层，用于提高神经网络的训练稳定性和泛化能力。

lqjun0827

5373人浏览 · 2023-08-06 15:02:51

lqjun0827 · 2023-08-06 15:02:51 发布

nn.InstanceNorm2d和nn.BatchNorm2d比较

介绍

介绍

nn.InstanceNorm2d 和 nn.BatchNorm2d 都是 PyTorch 中常用的归一化层，用于提高神经网络的训练稳定性和泛化能力。

主要区别

它们之间的主要区别如下：

归一化对象：
- nn.InstanceNorm2d：实例归一化，对每个样本（实例）的特征进行归一化。适用于每个样本的特征分布不同的情况，如图像风格转换等任务。
- nn.BatchNorm2d：批归一化，对整个批次中的样本的特征进行归一化。适用于训练深度神经网络时，加速训练过程、提高模型的泛化能力。
归一化方式：
- nn.InstanceNorm2d：对每个样本的每个通道进行归一化，即对每个特征图的每个位置点进行归一化。
- nn.BatchNorm2d：对每个通道的特征图进行归一化，即对每个特征图的所有位置点进行归一化。
归一化参数：
- nn.InstanceNorm2d：没有可训练的参数，只有归一化的均值和方差。
- nn.BatchNorm2d：有可训练的参数，包括缩放因子（scale）、偏移量（shift）、归一化的均值和方差。
使用场景：
- nn.InstanceNorm2d：适用于图像风格转换、图像生成等需要保持每个样本特征独立性的任务。
- nn.BatchNorm2d：适用于深度神经网络的训练过程，加速训练、提高模型的泛化能力。

需要根据具体任务和网络结构的特点选择合适的归一化层。在一般情况下，nn.BatchNorm2d 是更常用的归一化层。

计算公式

nn.InstanceNorm2d 和 nn.BatchNorm2d 在计算上的公式如下：

对于 nn.InstanceNorm2d，假设输入为 $\in \mathbb{R}^{N \times C \times H \times W}$ ，其中 $N$ 是批次大小， $C$ 是通道数， $H$ 和 $W$ 是特征图的高度和宽度。实例归一化的计算公式如下：

$\text{InstanceNorm2d}(x)_{n,c,h,w} = \frac{x_{n,c,h,w} - \mu_{n,c}}{\sqrt{\sigma^2_{n,c} + \epsilon}} \cdot \gamma_c + \beta_c$

其中：

$x_{n,c,h,w}$ 是输入张量 $x$ 在第 $n$ 个样本、第 $c$ 个通道、第 $h$ 行、第 $w$ 列的元素。
$\mu_{n,c}$ 是第 $n$ 个样本、第 $c$ 个通道的均值，计算公式为 $\mu_{n,c} = \frac{1}{H \times W} \sum_{h=1}^{H} \sum_{w=1}^{W} x_{n,c,h,w}$ 。
$\sigma^2_{n,c}$ 是第 $n$ 个样本、第 $c$ 个通道的方差，计算公式为 $\sigma^2_{n,c} = \frac{1}{H \times W} \sum_{h=1}^{H} \sum_{w=1}^{W} (x_{n,c,h,w} - \mu_{n,c})^2$ 。
$\gamma_c$ 是归一化的缩放因子（scale），是一个可学习的参数。
$\beta_c$ 是归一化的偏移量（shift），是一个可学习的参数。
$\epsilon$ 是一个小的常数，用于避免除以零的情况。

对于 nn.BatchNorm2d，假设输入为 $\in \mathbb{R}^{N \times C \times H \times W}$ ，其中 $N$ 是批次大小， $C$ 是通道数， $H$ 和 $W$ 是特征图的高度和宽度。批归一化的计算公式如下：

$\text{BatchNorm2d}(x)_{n,c,h,w} = \frac{x_{n,c,h,w} - \mu_c}{\sqrt{\sigma^2_c + \epsilon}} \cdot \gamma_c + \beta_c$

其中：

$x_{n,c,h,w}$ 是输入张量 $x$ 在第 $n$ 个样本、第 $c$ 个通道、第 $h$ 行、第 $w$ 列的元素。
$\mu_c$ 是第 $c$ 个通道的均值，计算公式为 $\mu_c = \frac{1}{N \times H \times W} \sum_{n=1}^{N} \sum_{h=1}^{H} \sum_{w=1}^{W} x_{n,c,h,w}$ 。
$\sigma^2_c$ 是第 $c$ 个通道的方差，计算公式为 $\sigma^2_c = \frac{1}{N \times H \times W} \sum_{n=1}^{N} \sum_{h=1}^{H} \sum_{w=1}^{W} (x_{n,c,h,w} - \mu_c)^2$ 。
$\gamma_c$ 是归一化的缩放因子（scale），是一个可学习的参数。
$\beta_c$ 是归一化的偏移量（shift），是一个可学习的参数。
$\epsilon$ 是一个小的常数，用于避免除以零的情况。

☆☆☆详细补充（BatchNorm2d、InstanceNorm2d和LayerNorm）

在PyTorch中，BatchNorm2d、InstanceNorm2d 和 LayerNorm 都是归一化（Normalization）技术，但它们在计算方式和适用场景上有所不同。下面我将详细解释它们的区别，并给出它们的计算过程。

1. `BatchNorm2d`

Batch Normalization 是在 mini-batch 数据上进行归一化，通常用于 Convolutional Neural Networks (CNNs) 中。

计算过程：

假设输入是一个 4D 张量，形状为 (N, C, H, W)，其中：

N 是批量大小（batch size）
C 是通道数（channels）
H 是高度（height）
W 是宽度（width）

对于 BatchNorm2d，归一化是在 通道维度 上进行的，即对于每一个通道，计算其均值和方差，然后进行归一化。

具体步骤如下：

计算均值和方差：

对于每个通道 c，计算均值和方差：

$\mu_c = \frac{1}{N \times H \times W} \sum_{n=1}^{N} \sum_{h=1}^{H} \sum_{w=1}^{W} x_{n,c,h,w}$

$\sigma_c^2 = \frac{1}{N \times H \times W} \sum_{n=1}^{N} \sum_{h=1}^{H} \sum_{w=1}^{W} (x_{n,c,h,w} - \mu_c)^2$
归一化：

$\hat{x}_{n,c,h,w} = \frac{x_{n,c,h,w} - \mu_c}{\sqrt{\sigma_c^2 + \epsilon}}$

其中， $\epsilon$ 是一个很小的数，用于数值稳定。
缩放和偏移：

$y_{n,c,h,w} = \gamma_c \hat{x}_{n,c,h,w} + \beta_c$

其中， $\gamma_c$ 和 $\beta_c$ 是可学习的参数，用于缩放和偏移。

特点：

在 batch 维度上进行归一化，利用 batch 中的数据进行统计。
通常在训练时使用 moving average 来估计均值和方差，在测试时使用运行时的均值和方差。
适合批量较大的情况，批量太小可能效果不佳。

2. `InstanceNorm2d`

Instance Normalization 是在每个样本（实例）的基础上进行归一化，常用于生成对抗网络（GANs）和风格迁移任务。

计算过程：

同样假设输入是一个 4D 张量，形状为 (N, C, H, W)。

对于 InstanceNorm2d，归一化是在 每个样本的通道维度 上进行的，即对于每一个样本 n，在所有通道上计算均值和方差，然后进行归一化。

具体步骤如下：

计算均值和方差：

对于每个样本 n 和每个通道 c，计算均值和方差：

$\mu_{n,c} = \frac{1}{H \times W} \sum_{h=1}^{H} \sum_{w=1}^{W} x_{n,c,h,w}$

$\sigma_{n,c}^2 = \frac{1}{H \times W} \sum_{h=1}^{H} \sum_{w=1}^{W} (x_{n,c,h,w} - \mu_{n,c})^2$

归一化：

$\hat{x}_{n,c,h,w} = \frac{x_{n,c,h,w} - \mu_{n,c}}{\sqrt{\sigma_{n,c}^2 + \epsilon}}$
缩放和偏移：

$y_{n,c,h,w} = \gamma_c \hat{x}_{n,c,h,w} + \beta_c$

其中， $\gamma_c$ 和 $\beta_c$ 是可学习的参数，但与 BatchNorm2d 不同，这里的参数是按通道共享的。

特点：

每个样本独立进行归一化，不共享统计信息。
适用于风格迁移和生成任务，因为可以保留更多的样本特征。
在 batch size 较小时表现稳定。

3. `LayerNorm`

Layer Normalization 是在指定的维度上进行归一化，常用于自然语言处理（NLP）任务。

计算过程：

LayerNorm 可以应用于任意维度的输入，具体取决于 normalized_shape 参数。

假设输入是一个 ND 张量，形状为 (D1, D2, ..., DN)，并且指定 normalized_shape 为最后 M 个维度。

归一化的维度是最后 M 个维度。

具体步骤如下：

计算均值和方差：

在指定的维度上计算均值和方差。

例如，如果输入形状是 (N, C, H, W)，并且 normalized_shape = (H, W)，则对于每个样本和每个通道，计算均值和方差：

$\mu_{n,c} = \frac{1}{H \times W} \sum_{h=1}^{H} \sum_{w=1}^{W} x_{n,c,h,w}$

$\sigma_{n,c}^2 = \frac{1}{H \times W} \sum_{h=1}^{H} \sum_{w=1}^{W} (x_{n,c,h,w} - \mu_{n,c})^2$
归一化：

$\hat{x}_{n,c,h,w} = \frac{x_{n,c,h,w} - \mu_{n,c}}{\sqrt{\sigma_{n,c}^2 + \epsilon}}$
缩放和偏移：

$y_{n,c,h,w} = \gamma_{n,c} \hat{x}_{n,c,h,w} + \beta_{n,c}$

其中， $\gamma$ 和 $\beta$ 是可学习的参数，形状与 normalized_shape 相匹配。

特点：

可以在任意维度上进行归一化，灵活性高。
适用于序列数据，如 NLP 任务，因为可以在序列长度上进行归一化。
不依赖于 batch size，适合小批量或在线推理。

总结

BatchNorm2d：在 batch 维度上归一化，适用于图像分类等任务，利用 batch 统计信息。
InstanceNorm2d：在每个样本上归一化，适用于风格迁移和生成任务，保留样本特征。
LayerNorm：在指定维度上归一化，适用于 NLP 和其他需要灵活归一化的任务。

推断阶段是否需要计算均值和方差？

在PyTorch中，BatchNorm2d 在训练阶段和推断阶段的行为是不同的，具体如下：

1. 训练阶段

在训练阶段，BatchNorm2d 会根据当前 mini-batch 的数据计算均值和方差，并使用这些统计量对数据进行归一化。同时，它会更新移动平均的均值（running_mean）和方差（running_var）。

更新公式如下：

$running_mean = momentum × running_mean + ( 1 − momentum ) × batch_mean \text{running\_mean} = \text{momentum} \times \text{running\_mean} + (1 - \text{momentum}) \times \text{batch\_mean}$

$running_var = momentum × running_var + ( 1 − momentum ) × batch_var \text{running\_var} = \text{momentum} \times \text{running\_var} + (1 - \text{momentum}) \times \text{batch\_var}$

其中：

momentum 是一个超参数，通常设置为 0.1。
batch_mean 是当前 mini-batch 的均值。
batch_var 是当前 mini-batch 的方差。

2. 推断阶段

在推断阶段，BatchNorm2d 不再使用当前 batch 的均值和方差，而是直接使用训练过程中积累的 running_mean 和 running_var 来进行归一化。

归一化公式如下：

$running_mean running_var + ϵ \hat{x} = \frac{x - \text{running\_mean}}{\sqrt{\text{running\_var} + \epsilon}}$

其中：

( x ) 是输入数据。
( \epsilon ) 是一个很小的常数，用于数值稳定性（通常为 1e-5）。
running_mean 和 running_var 是训练阶段积累的移动平均值。

总结

训练阶段：BatchNorm2d 使用当前 mini-batch 的均值和方差进行归一化，并更新 running_mean 和 running_var。
推断阶段：BatchNorm2d 直接使用训练阶段积累的 running_mean 和 running_var 进行归一化，不需要重新计算当前 batch 的均值和方差。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

提示工程架构师前沿实践：用动态prompt适应用户需求变化的创新案例

动态Prompt是相对于静态Prompt根据实时获取的用户数据（输入、上下文、历史行为）、环境信息（时间、地点、设备）或业务规则，动态生成的、针对当前场景的个性化提示。“请解释退货流程”“用户是VIP会员，昨天购买的连衣裙今天签收，当前位置是北京市朝阳区，附近快递点18点下班（现在17:45），请用友好的语气解释退货流程，并建议优先选择上门取件”动态Prompt的本质是让AI从“通用”走向“专属”

2048 AI社区

AI应用架构师的智能识别系统设计的质量控制

想象一下，在繁忙的国际机场，每天有成千上万的乘客穿梭其中。机场的安检系统需要在短时间内准确识别乘客及其行李中的危险物品，确保航空安全。这背后依靠的就是智能识别系统。又或者在医疗领域，医生借助智能识别系统分析X光、CT等影像，帮助诊断疾病。但如果这些智能识别系统出现误判，将可能导致严重的后果，比如安检误放危险物品，医疗误诊耽误患者治疗。那么，如何保证AI应用架构师设计的智能识别系统具备高质量，尽可能