之前经常将正则化和归一化这两个概念搞错,特写此文,防止再次出错。

1. 归一化(normalization)

归一化的作用是去除数据的量纲,或者说将数据的value转换到同一个数量级或者限制在某一范围之内。

1.1 max-min归一化

即通过 xxx 所在的数据集的最大和最小值对 xxx 进行归一化:
x′=x−xmin⁡xmax⁡−xmin⁡ x^{'}=\frac{x-x_{\min }}{x_{\max }-x_{\min }} x=xmaxxminxxmin
其中,xmin⁡x_{\min }xminxmax⁡x_{\max }xmax为数据xxx所在集合(行/列)的最小值和最大值,经过归一化之后,xxx的范围为,x∈[0,1]x \in [0,1]x[0,1]

1.2 以均值和方差进行归一化(标准化)

把数据 xxx 变换到均值为0,方差为1:
x′=x−μσ x^{'}=\frac{x-\mu}{\sigma} x=σxμ
其中,μ\muμσ\sigmaσ 分别为该组数据的均值和方差。
经过此类归一化之后,对应的损失函数的等高线形状均匀,在进行梯度下降算法时能够很快的收敛。

2. 正则化(regularization)

正则化主要用于避免过拟合的产生和减少网络误差。正则化的公式为:
L=∑n(y^n−(b+∑wixi))2+λ∑(wi)2 L=\sum_{n}\left(\hat{y}^{n}-\left(b+\sum w_{i} x_{i}\right)\right)^{2} +\lambda \sum\left(w_{i}\right)^{2} L=n(y^n(b+wixi))2+λ(wi)2

注1:公式来源于李宏毅教授2020机器学习课件
注2:常用L2正则化

式中,y^n\hat{y}^{n}y^n 代表第 nnn 条数据的真值,xix_ixi 为第 iii 个输入特征。对比一般的损失函数公式,可以看到,正则化即在损失函数后面添加了一项 λ∑(wi)2\lambda \sum\left(w_{i}\right)^{2}λ(wi)2,其中,λ≥0\lambda \geq0λ0 用来调整正则化的程度。

注:通常系数 w0w0w0 从正则化项中省略,因为包含 w0w0w0 会使得结果依赖于⽬标变量原点的选择

该公式给误差函数增加⼀个惩罚项,使得系数 wiw_iwi不会达到很大的值。
下表直观地显示了 λ\lambdaλ 对系数的影响:
ln⁡λ=−∞ln⁡λ=−18ln⁡λ=0w0∗0.350.350.13w1∗232.374.74−0.05w2∗−5321.83−0.77−0.06w3∗48568.31−31.97−0.05w4∗−231639.30−3.89−0.03w5∗640042.2655.28−0.02w6∗−1061800.5241.32−0.01w7∗1042400.18−45.95−0.00w8∗−557682.99−91.530.00w9∗125201.4372.680.01 \begin{array}{r|rrr} & \ln \lambda=-\infty & \ln \lambda=-18 & \ln \lambda=0 \\ \hline w_{0}^{*} & 0.35 & 0.35 & 0.13 \\ w_{1}^{*} & 232.37 & 4.74 & -0.05 \\ w_{2}^{*} & -5321.83 & -0.77 & -0.06 \\ w_{3}^{*} & 48568.31 & -31.97 & -0.05 \\ w_{4}^{*} & -231639.30 & -3.89 & -0.03 \\ w_{5}^{*} & 640042.26 & 55.28 & -0.02 \\ w_{6}^{*} & -1061800.52 & 41.32 & -0.01 \\ w_{7}^{*} & 1042400.18 & -45.95 & -0.00 \\ w_{8}^{*} & -557682.99 & -91.53 & 0.00 \\ w_{9}^{*} & 125201.43 & 72.68 & 0.01 \end{array} w0w1w2w3w4w5w6w7w8w9lnλ=0.35232.375321.8348568.31231639.30640042.261061800.521042400.18557682.99125201.43lnλ=180.354.740.7731.973.8955.2841.3245.9591.5372.68lnλ=00.130.050.060.050.030.020.010.000.000.01
可以看出,λ\lambdaλ 较小的时候,模型的参数非常大,此时极易导致模型过拟合,随着 λ\lambdaλ 逐渐增加,系数又将变得非常小,此时又不利于模型的拟合效果。 λ\lambdaλ 控制了模型的复杂性,决定了过拟合的程度。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐