正则化（regulation）和归一化（normalization）

之前经常将正则化和归一化这两个概念搞错，特写此文，防止再次出错。1. 归一化（normalization）归一化的作用是去除数据的量纲，或者说将数据的value转换到同一个数量级或者限制在某一范围之内。1.1 max-min归一化即通过x所在的数据集的最大和最小值对x进行归一化：x′=x−xmin⁡xmax⁡−xmin⁡x^{'}=\frac{x-x_{\min }}{x_{\max }-x_{\

林书芹

4774人浏览 · 2021-10-07 16:58:45

林书芹 · 2021-10-07 16:58:45 发布

之前经常将正则化和归一化这两个概念搞错，特写此文，防止再次出错。

1. 归一化（normalization）

归一化的作用是去除数据的量纲，或者说将数据的value转换到同一个数量级或者限制在某一范围之内。

1.1 max-min归一化

即通过 $x$ 所在的数据集的最大和最小值对 $x$ 进行归一化：
$x^{'}=\frac{x-x_{\min }}{x_{\max }-x_{\min }}$
其中， $x_{\min }$ 和 $x_{\max }$ 为数据 $x$ 所在集合（行/列）的最小值和最大值，经过归一化之后， $x$ 的范围为， $\in [0,1]$ 。

1.2 以均值和方差进行归一化（标准化）

把数据 $x$ 变换到均值为0，方差为1：
$x^{'}=\frac{x-\mu}{\sigma}$
其中， $μ\mu$ 和 $σ\sigma$ 分别为该组数据的均值和方差。
经过此类归一化之后，对应的损失函数的等高线形状均匀，在进行梯度下降算法时能够很快的收敛。

2. 正则化（regularization）

正则化主要用于避免过拟合的产生和减少网络误差。正则化的公式为：
$L=∑n(y^n−(b+∑wixi))2+λ∑(wi)2 L=\sum_{n}\left(\hat{y}^{n}-\left(b+\sum w_{i} x_{i}\right)\right)^{2} +\lambda \sum\left(w_{i}\right)^{2}$

注1：公式来源于李宏毅教授2020机器学习课件
注2：常用L2正则化

式中， $y^n\hat{y}^{n}$ 代表第 $n$ 条数据的真值， $x_i$ 为第 $i$ 个输入特征。对比一般的损失函数公式，可以看到，正则化即在损失函数后面添加了一项 $λ∑(wi)2\lambda \sum\left(w_{i}\right)^{2}$ ，其中， $λ≥0\lambda \geq0$ 用来调整正则化的程度。

注：通常系数 $w 0$ 从正则化项中省略，因为包含 $w 0$ 会使得结果依赖于⽬标变量原点的选择

该公式给误差函数增加⼀个惩罚项，使得系数 $w_i$ 不会达到很大的值。
下表直观地显示了 $λ\lambda$ 对系数的影响：
$\begin{array}{r|rrr} & \ln \lambda=-\infty & \ln \lambda=-18 & \ln \lambda=0 \\ \hline w_{0}^{*} & 0.35 & 0.35 & 0.13 \\ w_{1}^{*} & 232.37 & 4.74 & -0.05 \\ w_{2}^{*} & -5321.83 & -0.77 & -0.06 \\ w_{3}^{*} & 48568.31 & -31.97 & -0.05 \\ w_{4}^{*} & -231639.30 & -3.89 & -0.03 \\ w_{5}^{*} & 640042.26 & 55.28 & -0.02 \\ w_{6}^{*} & -1061800.52 & 41.32 & -0.01 \\ w_{7}^{*} & 1042400.18 & -45.95 & -0.00 \\ w_{8}^{*} & -557682.99 & -91.53 & 0.00 \\ w_{9}^{*} & 125201.43 & 72.68 & 0.01 \end{array}$
可以看出， $λ\lambda$ 较小的时候，模型的参数非常大，此时极易导致模型过拟合，随着 $λ\lambda$ 逐渐增加，系数又将变得非常小，此时又不利于模型的拟合效果。 $λ\lambda$ 控制了模型的复杂性，决定了过拟合的程度。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

自建AI团队 vs 外包AI开发：2026年企业决策对比指南

2048 AI社区

架构设计（一）

项目中的智能穿搭建议，属于文本大模型推理任务，输入衣物标签、场景信息，即可秒级返回文字结果，轻量且稳定。而虚拟试穿（VTON）是图像生成任务，需要完成图像解析、人体适配、衣物形变、画面渲染等一系列复杂操作，耗时普遍在30–120秒，对网络、超时、文件传输的要求远高于普通文本接口。因此我摒弃了将试穿功能嵌入AI聊天窗口的常规做法，采用独立页面、独立接口、独立服务逻辑的设计，从根源避免功能耦合、超时崩