RMSNorm规范化

RMSNorm 的数学公式计算均方根（RMS）。归一化输入。缩放归一化后的输出。RMSNorm 相对于传统的 Layer Normalization 更加稳定，尤其是在长序列处理中表现更优。

weixin_42924890

1549人浏览 · 2024-12-10 12:08:36

weixin_42924890 · 2024-12-10 12:08:36 发布

RMSNorm（Root Mean Square Layer Normalization）

RMSNorm 是一种类似于 Layer Normalization 的归一化技术，但它使用的是均方根（Root Mean Square, RMS）而非标准差。RMSNorm 在实际应用中表现出更好的稳定性和计算效率。

均值：描述数据的中心位置。
$\mu = \frac{1}{n} \sum_{i=1}^{n} x_i$
方差：描述数据的离散程度，单位是原数据单位的平方。
$\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2$
标准差：描述数据的离散程度，单位与原数据相同。
$\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2}$
均方根：描述数据的总体水平，常用于信号处理等领域。
$\text{RMS} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} x_i^2}$

数学公式

假设输入张量 $\mathbf{x}$ 的形状为 $(N, D)$ ，其中 $N$ 是批量大小， $D$ 是特征维度。RMSNorm 的计算步骤如下：
$\begin{aligned} &1.求均方根: \text{RMS}(\mathbf{x}) = \sqrt{\frac{1}{D} \sum_{i=1}^{D} x_i^2} \\ &2. 归一化输入: \mathbf{y} = \frac{\mathbf{x}}{\text{RMS}(\mathbf{x}) + \epsilon} \\ &3. 缩放: \mathbf{z} = \gamma \cdot \mathbf{y},\ \gamma 是一个可学习的参数. \end{aligned}$

代码实现

class RMSNorm(nn.Module):
    def __init__(self, hidden_size, eps=1e-6):
        super(RMSNorm, self).__init__()
        self.weight = nn.Parameter(torch.ones(hidden_size))
        self.variance_epsilon = eps

    def forward(self, x):
        variance = torch.var(x, dim=-1, keepdim=True)
        x = x * torch.rsqrt(variance + self.variance_epsilon)
        return self.weight * x

总结

RMSNorm 的数学公式：
- 计算均方根（RMS）。
- 归一化输入。
- 缩放归一化后的输出。

RMSNorm 相对于传统的 Layer Normalization 更加稳定，尤其是在长序列处理中表现更优。

LayerNorm和BatchNorm 参考

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

医疗模型Hyperopt调参稳住AUC

2048 AI社区

Java 后端如何高效对接 Python 微调大模型？四种数据交互方案全解析（含实战代码）

Python 微调大模型可通过 Flask/FastAPI 暴露 REST 接口，Java 使用 Spring 的或调用。Python 示例（FastAPI）：https://www.zhihu.com/zvideo/1993874870761722160/https://www.zhihu.com/zvideo/1993874870648451336/https://www.zhihu.com/

2048 AI社区

AI的平衡艺术：2026年如何在技术狂奔中守护人性价值

2026年AI发展进入精智落地新阶段，战略核心从"盲目追新"转向"平衡艺术"。本文深入探讨技术与人性、创新与治理、自动化与体验三大平衡维度，通过真实场景分析展示如何构建可持续的AI价值体系。文章为企业和技术开发者提供兼具前瞻性与实操性的实施框架，助力在AI浪潮中把握发展节奏。关键词AI战略、技术伦理、人机协同、AI治理、用户体验、可持续创新