岭回归直接得到最优解的公式推导

关键词：间隔最大化、无约束优化问题、有约束优化问题、凸函数、仿射函数、凸二次规划问题、希尔伯特空间、拉格朗日乘子法、拉格朗日对偶函数、KKT 条件研究思路支持向量机（support vector machines，SVM）是一种二分类模型。1、硬间隔最大的线性可分的支持向量机前提：数据线性可分。与感知机不同的是，感知机只要找到一个超平面将训练数据集线性可分就可以了，但是 SVM 得到的分离...

liweiwei1419

20320人浏览 · 2018-10-08 12:44:27

liweiwei1419 · 2018-10-08 12:44:27 发布

线性回归

下面是线性回归的公式推导，没有加上 L2 正则化因子。

假设 $\hat y = Xw$ ，因为

$\begin{aligned} L(w) &= ||\hat y - y||_2^2=||Xw-y||_2^2 \\ &= (Xw-y)^T(Xw-y) \\ &= w^TX^TXw - y^TXw - w^TX^Ty + y^Ty, \end{aligned}$

所以
$\frac{\partial L(w)}{\partial w}= 2X^TXw-X^Ty-X^Ty,$
令 $\frac{\partial L(w)}{\partial w}=0$ ，得
$w=(X^TX)^{-1}X^Ty.$

参考：周志华《机器学习》P55 “线性回归”这一节的叙述。

岭回归

上面定义的 $=||\hat y - y||_2^2$ 是经验风险，在经验风险的基础上加上表示模型复杂度的正则化项（regularization）或者惩罚项（penalty term），即结构风险。所以线性回归是经验风险最小化，岭回归是结构风险最小化。

参考：李航《统计学习方法》（第二版）P18关于“经验风险最小化”与“结构风险最小化”一节的叙述。

岭回归其实就是在损失函数上加上了一个 L2 正则，使得每个变量的权重不会太大。当某些特征权重比较大的时候，自变化变化一点点，就会导致因变量变化很大，使得方差变大，有过拟合风险。

此时损失函数变为：

$\begin{aligned} L(w) &= ||\hat y - y||_2^2 + \lambda ||w||^2_2 =||Xw-y||_2^2 + \lambda w^Tw\\ &= (Xw-y)^T(Xw-y) + \lambda w^Tw\\ &= w^TX^TXw - y^TXw - w^TX^Ty+y^Ty + \lambda w^Tw, \end{aligned}$