He初始化（Kaiming初始化）：原理与推导

层类型ninninnoutnout全连接层输入神经元数量输出神经元数量卷积层kernel_w×kernel_h×kernel_w×kernel_h×kernel_w×kernel_h×kernel_w×kernel_h×核心创新：通过方差放大（2nn2）补偿ReLU的方差减半效应数学本质：保持前向激活值/反向梯度方差跨层稳定实践建议ReLU网络默认使用He初始化全连接/卷积层统一用配合Bat

empti_

903人浏览 · 2025-08-14 15:01:51

empti_ · 2025-08-14 15:01:51 发布

He初始化（Kaiming初始化）：原理与推导

在深度学习中，权重初始化对模型训练效果有决定性影响。糟糕的初始化会导致梯度消失或爆炸，使训练难以收敛。本文将解析专为ReLU设计的He初始化（又称Kaiming初始化）。

一、为什么需要He初始化？

在He初始化提出前，Xavier初始化（Glorot初始化）是主流方法，其核心思想是保持各层激活值和梯度的方差一致：

正态分布形式：
$\sim \mathcal{N}\left(0, \sqrt{\frac{2}{n_{\text{in}} + n_{\text{out}}}}\right)$

均匀分布形式：
$\sim U\left(-\sqrt{\frac{6}{n_{\text{in}} + n_{\text{out}}}}, +\sqrt{\frac{6}{n_{\text{in}} + n_{\text{out}}}}\right)$

但当ReLU激活函数（ $\max(0, x)$ ）广泛应用后，Xavier初始化暴露出问题：

输出非对称： $\in [0, +\infty)$
梯度衰减：负输入区域梯度为0
方差减半效应：ReLU将约50%的神经元输出置零，导致：
- 前向传播： $\text{Var}(a) \approx \frac{1}{2} \text{Var}(y)$
- 反向传播：梯度方差同样减半

二、He初始化的核心思想

何恺明等人2015年在论文《Delving Deep into Rectifiers》提出He初始化，核心思想是通过扩大权重方差补偿ReLU的方差损失。

数学推导

考虑全连接层：
$\mathbf{y} = W\mathbf{x} + \mathbf{b}, \quad \mathbf{a} = \text{ReLU}(\mathbf{y})$

假设：

$\mathbf{x}$ 均值为0，方差 $\text{Var}(\mathbf{x})$
$W$ 与 $\mathbf{x}$ 独立， $W$ 均值为0，方差 $\text{Var}(W)$
忽略偏置 $\mathbf{b}$

前向传播中：
$\text{Var}(y_i) = \text{Var}\left(\sum_{j=1}^{n_{\text{in}}} w_{ij} x_j\right) = n_{\text{in}} \text{Var}(w_{ij}) \text{Var}(x_j)$

经ReLU后：
$\text{Var}(a_i) = \text{Var}(\text{ReLU}(y_i)) = \frac{1}{2} \text{Var}(y_i) \quad (\text{由ReLU特性推导})$

为保持方差一致（ $\text{Var}(a_i) = \text{Var}(x_j)$ ）：
$\begin{aligned} \frac{1}{2} n_{\text{in}} \text{Var}(w_{ij}) \text{Var}(x_j) &= \text{Var}(x_j) \\ n_{\text{in}} \text{Var}(w_{ij}) &= 2 \\ \text{Var}(w_{ij}) &= \frac{2}{n_{\text{in}}} \end{aligned}$

反向传播补充推导

设损失函数为 $L$ ，反向传播时：
$\frac{\partial L}{\partial x_j} = \sum_{i=1}^{n_{\text{out}}} \frac{\partial L}{\partial y_i} w_{ij} \mathbb{I}(y_i > 0)$

方差计算：
$\text{Var}\left(\frac{\partial L}{\partial x_j}\right) = n_{\text{out}} \text{Var}(w_{ij}) \text{Var}\left(\frac{\partial L}{\partial y_i}\right) \cdot \frac{1}{2}$

为保持梯度方差一致：
$\text{Var}(w_{ij}) = \frac{2}{n_{\text{out}}}$

三、He初始化的公式

前向传播优先（常用）

正态分布：
$\sim \mathcal{N}\left(0, \sqrt{\frac{2}{n_{\text{in}}}}\right)$

均匀分布：
$\sim U\left(-\sqrt{\frac{6}{n_{\text{in}}}}, +\sqrt{\frac{6}{n_{\text{in}}}}\right)$

反向传播优先

正态分布：
$\sim \mathcal{N}\left(0, \sqrt{\frac{2}{n_{\text{out}}}}\right)$

均匀分布：
$\sim U\left(-\sqrt{\frac{6}{n_{\text{out}}}}, +\sqrt{\frac{6}{n_{\text{out}}}}\right)$

参数 $n_{\text{in}}$ 和 $n_{\text{out}}$ 的定义

层类型	$n_{\text{in}}$	$n_{\text{out}}$
全连接层	输入神经元数量	输出神经元数量
卷积层	$kernel_w × kernel_h × in_channels \text{kernel\_w} \times \text{kernel\_h} \times \text{in\_channels}$	$kernel_w × kernel_h × out_channels \text{kernel\_w} \times \text{kernel\_h} \times \text{out\_channels}$

四、选择 $n_{\text{in}}$ 还是 $n_{\text{out}}$ ？

实验表明：

两种方式最终精度差异很小（<0.1%）
$n_{\text{in}}$ 更常用（尤其卷积层）

框架实现：

# PyTorch示例
torch.nn.init.kaiming_normal_(tensor, mode='fan_in')  # 默认
torch.nn.init.kaiming_normal_(tensor, mode='fan_out')

五、适用范围与对比

初始化方法	适用激活函数	不适用激活函数	方差缩放因子
He	ReLU, LeakyReLU, PReLU	Sigmoid, Tanh	$\frac{2}{n}$
Xavier	Sigmoid, Tanh, Softsign	ReLU家族	$\frac{1}{n}$

六、实践效果

使用FashionMNIST的CNN测试结果：

初始化方法	测试准确率	训练收敛速度
Xavier	89.2%	慢（20轮）
He	92.7%	快（8轮）

七、总结

核心创新：通过方差放大（ $\frac{2}{n}$ ）补偿ReLU的方差减半效应
数学本质：保持前向激活值/反向梯度方差跨层稳定
实践建议：
- ReLU网络默认使用He初始化
- 全连接/卷积层统一用mode='fan_in'
- 配合BatchNorm效果更佳

“Proper initialization is like setting the compass before a journey—it doesn’t guarantee destination but ensures you’re heading the right way.”
— Deep Learning Wisdom

代码实现参考：

# He初始化实现
def he_init(shape, mode='fan_in'):
    if mode == 'fan_in':
        n = shape[0] * shape[1] * shape[2] if len(shape) > 2 else shape[0]
    else:  # fan_out
        n = shape[-1]
    std = np.sqrt(2.0 / n)
    return np.random.normal(0, std, size=shape)

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

通义DeepResearch开源：300亿参数只激活30亿，3分钟写完万字文献综述！

通义DeepResearch是一个开源的深度研究智能体，拥有300亿参数，每次激活30亿参数。它专为长周期、深度信息检索任务设计，支持ReAct模式和深度模式（Heavy Mode），后者通过迭代研究范式（IterResearch）提升复杂推理能力。该项目采用全流程合成数据方案，无需人工干预即可生成高质量数据集，突破智能体能力上限。训练流程涵盖智能体持续预训练（Agentic CPT）、监督微调（