普通最小二乘法的推导证明

在统计学中，普通最小二乘法（Ordinary Least Squares，OLS）是一种用于在线性回归模型中估计未知参数的线性最小二乘法。 OLS通过最小二乘法原则选择一组解释变量的线性函数的参数：最小化给定数据集中观察到的因变量（被预测变量的值）与预测变量之间残差的平方和。一元线性回归求解过程我们先以一元线性模型为例来说明。假设有一组数据X={(x1,y1,⋯ ,(xm,ym)}X=\{(...

跟着大数据和AI去旅行

5251人浏览 · 2020-02-29 19:57:55

跟着大数据和AI去旅行 · 2020-02-29 19:57:55 发布

在统计学中，普通最小二乘法（Ordinary Least Squares，OLS）是一种用于在线性回归模型中估计未知参数的线性最小二乘法。 OLS通过最小二乘法原则选择一组解释变量的线性函数的参数：最小化给定数据集中观察到的因变量（被预测变量的值）与预测变量之间残差的平方和。

一元线性回归求解过程

我们先以一元线性模型为例来说明。

假设有一组数据 $,(xm,ym)}X=\{({{x}_{1}},{{y}_{1}},\cdots ,({{x}_{m}},{{y}_{m}})\}$ ，我们希望求出对应的一元线性模型来拟合这一组数据：

$y={{\beta }_{0}}+{{\beta }_{1}}x$
既然要拟合，总要有一个拟合程度高低的判断标准，上文说到，最小二乘法中使用的就是误差平方和方法，所以，这时候损失函数，或者说我们的目标函数就是：

$J(\beta )=\sum\limits_{i=0}^{m}{{{({{y}_{i}}-{{\beta }_{1}}{{x}_{i}}-{{\beta }_{0}})}^{2}}}$
有了这个目标函数，我们要做的就是求出 $β0{{\beta }_{0}}$ 和 $β1{{\beta }_{1}}$ 使得 $J(β)J(\beta )$ 最小，在这里就是极小值。

求极值的一个很好的方法就是求导，在这里因为有多个参数，所以，我们要分别对 $β0{{\beta }_{0}}$ 和 $β1{{\beta }_{1}}$ 求偏导：
$\frac{\partial J(\beta )}{\partial {{\beta }_{1}}}=\sum\limits_{i=0}^{m}{2({{y}_{i}}-{{\beta }_{1}}{{x}_{i}}-{{\beta }_{0}})(-{{x}_{i}})}=2\sum\limits_{i=0}^{m}{({{\beta }_{1}}x_{i}^{2}+{{\beta }_{0}}{{x}_{i}}-{{x}_{i}}{{y}_{i}})}$

$\frac{\partial J(\beta )}{\partial {{\beta }_{0}}}=\sum\limits_{i=0}^{m}{2({{y}_{i}}-{{\beta }_{1}}{{x}_{i}}-{{\beta }_{0}})(-1)}=2\sum\limits_{i=0}^{m}{({{\beta }_{1}}{{x}_{i}}+{{\beta }_{0}}-{{y}_{i}})(-1)}=2(m{{\beta }_{1}}\frac{\sum\limits_{1}^{m}{{{x}_{i}}}}{m}+m{{\beta }_{0}}-m\frac{\sum\limits_{1}^{m}{{{y}_{i}}}}{m})$

因为 $xˉ=∑1mxim\bar{x}=\frac{\sum\limits_{1}^{m}{{{x}_{i}}}}{m}$ , $yˉ=∑1myim\bar{y}=\frac{\sum\limits_{1}^{m}{{{y}_{i}}}}{m}$ , 所以，上面第二个，也就是对 $β0{{\beta }_{0}}$ 的偏导可以转化为：
$\frac{\partial J(\beta )}{\partial {{\beta }_{0}}}=2(m{{\beta }_{1}}\bar{x}+m{{\beta }_{0}}-m\bar{y})$

我们知道，目标函数取得极值时，偏导一定是等于0的，所以，我们令 $∂J(β)∂β0\frac{\partial J(\beta )}{\partial {{\beta }_{0}}}$ 等于0，于是有：
$2(m{{\beta }_{1}}\bar{x}+m{{\beta }_{0}}-m\bar{y})=0$

${{\beta }_{0}}=\bar{y}-{{\beta }_{1}}\bar{x}$

接着，我们继续回到上面第一个偏导，也就是对 $β1{{\beta }_{1}}$ 的偏导 $∂J(β)∂β1\frac{\partial J(\beta )}{\partial {{\beta }_{1}}}$ ，令 $∂J(β)∂β1=0\frac{\partial J(\beta )}{\partial {{\beta }_{1}}}=0$ ，并将 $β0=yˉ−β1xˉ{{\beta }_{0}}=\bar{y}-{{\beta }_{1}}\bar{x}$ 代入，得：
$2\sum\limits_{i=0}^{m}{({{\beta }_{1}}x_{i}^{2}+(\bar{y}-{{\beta }_{1}}\bar{x}){{x}_{i}}-{{x}_{i}}{{y}_{i}})}=0$

${\beta}_1 = \frac{\sum_{i=1}^m{x_iy_i} - \bar{y}\sum_{i=1}^mx_i} {\sum_{i=1}^mx_i^2 - \bar{x} \sum_{i=1}^mx_i}$

根据求和性质可得：
${\beta}_1 = \frac{\sum_{i=1}^m{x_iy_i} - \bar{y}\sum_{i=1}^mx_i} {\sum_{i=1}^mx_i^2 - \bar{x} \sum_{i=1}^mx_i} = \frac{\sum_{i=1}^{m}{({{x}_{i}}-\bar{x})({{y}_{i}}-\bar{y})}}{\sum_{i=1}^{m}{{{({{x}_{i}}-\bar{x})}^{2}}}}$
求和性质：

求和性质，具体可以参考Introductory Econometrics A Modern Approach (Fourth Edition) 一书（计量经济学导论，第4版，杰弗里·M·伍德里奇著）的附录A。
$\begin{aligned} &\sum_{i=1}^{m}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)\\ &=\sum_{i=1}^{m}\left(x_{i} y_{i}-x_{i} \bar{y}-\bar{x} y_{i}+\bar{x} \bar{y}\right)\\ &=\sum_{i=1}^{m} x_{i} y_{i}-\sum_{i=1}^{m} x_{i} \bar{y}-\sum_{i=1}^{m} \bar{x} y_{i}+\sum_{i=1}^{m} \bar{x} \bar{y}\\ &=\sum_{i=1}^{m} x_{i} y_{i}-m \bar{x} \bar{y}-m \bar{x} \bar{y}+m \bar{x} \bar{y}\\ &=\sum_{i=1}^{m} x_{i} y_{i}-\bar{y} \sum_{i=1}^{m} x_{i} \end{aligned}$

分子得证

$\begin{array}{l} \sum_{i=1}^{m}\left(x_{i}-\bar{x}\right)^{2}=\sum_{i=1}^{m}\left(x_{i}^{2}-2 x_{i} \bar{x}+\bar{x}^{2}\right) \\ \quad=\sum_{i=1}^{m} x_{i}^{2}-2 \bar{x} \sum_{i=1}^{m} x_{i}+\sum_{i=1}^{m} \bar{x}^{2} \\ \quad=\sum_{i=1}^{m} x_{i}^{2}-2 m \bar{x}^{2}+m \bar{x}^{2} \\ \quad=\sum_{i=1}^{m} x_{i}^{2}-m \bar{x}^{2}=\sum_{i=1}^{m} x_{i}^{2}-\bar{x} \sum_{i=1}^{m} x_{i} \end{array}$

分母得证

有了上述推导证明，普通最小二乘法一般形式可以写成（字母盖小帽表示估计值，具体参考应用概率统计）：

$\beta_1 x + \beta_0$ 的普通最小二乘解为：
$\left\{ \begin{array}{lr} {\beta}_1 = \frac{\sum_{i=1}^{m}{({{x}_{i}}-\bar{x})({{y}_{i}}-\bar{y})}}{\sum_{i=1}^{m}{{{({{x}_{i}}-\bar{x})}^{2}}}}\\ {{\beta }_{0}}=\bar{y}-{{\beta }_{1}}\bar{x} \end{array} \right.$

多元线性回归求解过程

对于多元的情况，需要使用矩阵运算来求解，先用矩阵表示：
$X\beta =y$

其中，
$X=\left[ \begin{matrix} 1 & {{x}_{12}} & \cdots & {{x}_{1n}} \\ 1 & {{x}_{22}} & \cdots & {{x}_{2n}} \\ \cdots & \cdots & \cdots & \cdots \\ 1 & {{x}_{m2}} & \cdots & {{x}_{mn}} \\ \end{matrix} \right],\beta =\left[ \begin{matrix} {{\beta }_{0}} \\ {{\beta }_{1}} \\ \cdots \\ {{\beta }_{n}} \\ \end{matrix} \right],y=\left[ \begin{matrix} {{y}_{1}} \\ \cdots \\ {{y}_{m}} \\ \end{matrix} \right]$
目标函数：
$J(\beta )={{\sum\limits_{i=1}^{m}{\left| {{y}_{i}}-\sum\limits_{j=1}^{n}{{{x}_{ij}}{{\beta }_{j}}} \right|}}^{2}}={{\left\| y-X{{\beta }^{T}} \right\|}^{2}}$
如果要使上述目标函数最小，显然其结果为0，即：
${\beta}^T = 0$
也就是说：
${X}\beta^T = y \\ {X}^T {X} \beta^T = {X}^Ty \\ ( {X}^T {X})^{-1} {X}^T{X} \beta^T = ( {X}^T {X})^{-1} {X}^T y \\ {\beta}^T = ( {X}^T {X})^{-1} {X}^Ty$

最终获得解：
${{\beta }^{T}}={{({{X}^{T}}X)}^{-1}}{{X}^{T}}y$
可以看出，对于一般的最小二乘法多元求解，使用矩阵运算即可，都不需要迭代。

此处不做证明，具体可参考《应用概率统计》张国权著第九章回归分析

最小二乘法 VS 梯度下降法

通过上面推导可知，最小二乘法可以矩阵运算求解，这种方法十分方便快捷，但这种方法不是万能的，因为线性最小二乘的解是closed-form即 $x=(A^TA)^{-1}A^Tb$ ，而非线性最小二乘没有closed-form（即 $A^TA)$ 没有可逆矩阵），这时候矩阵运算求解就行不通，这时候就可以通过迭代法（梯度下降法）求最优解。

来具体说说这两种方法的区别：

最小二乘法	梯度下降法
不需要设置学习率	需要设置学习率
一次运算得出最优解	需要多次迭代求解最优解
矩阵求逆得复杂度时 $O(n^3)$ ,所以数据维度越大，效率越低，甚至不可接受	维度较大时也适用
只适用于线性模型	适用性高，各种模型都可以使用