梯度下降和参数更新

梯度下降是在线性回归中处理不可逆目标函数时的一种有效的优化方法。它通过迭代的方式更新参数，使得损失函数逐渐最小化，从而得到较为精确的解。

苏西月 · 2024-09-19 03:32:04 发布

在线性回归中，目标是找到一组参数，使得模型预测值和实际值之间的误差最小化。这一目标通常通过最小化目标函数（或损失函数）来实现。最常见的损失函数是均方误差（MSE，Mean Squared Error），其公式如下：

$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2$

其中：

$J(θ)J(\theta)$ 是损失函数。

$hθ(x(i))h_\theta(x^{(i)})$ 是预测值，通常表示为：

$h_\theta(x) = \theta^T x$

即线性模型的预测结果。

$y^{(i)}$ 是实际值。

$θ\theta$ 是待求解的参数。

$m$ 是训练数据的样本数。

在一些特殊情况下，如果设计矩阵（输入数据的矩阵）是非满秩的，即矩阵的行列式为零，这意味着矩阵没有逆，不能通过直接求解公式（比如正规方程）来找到参数解。正规方程的形式为：

$\theta = (X^T X)^{-1} X^T y$

如果 $X^T X$ 是不可逆的，这时我们无法通过这种方式求解参数，因此需要使用数值方法来逼近最优解，梯度下降就是其中一种有效的方法。

梯度下降是一种通过迭代优化的方法，它不依赖矩阵的逆运算，因此即使矩阵不可逆，依然可以使用梯度下降法来找到一个近似解。基本思想是通过计算损失函数相对于参数的梯度，不断更新参数，使得损失函数的值逐渐减小，最终趋近于最优解。

梯度是损失函数对参数的偏导数，表示在当前参数值下，损失函数的变化方向。通过计算损失函数相对于每个参数 $θj\theta_j$ 的梯度，我们可以知道如何更新参数，使损失函数最小化。

对于均方误差，梯度的计算公式如下：

$\frac{\partial}{\partial \theta_j} J(\theta) = \frac{1}{m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x_j^{(i)}$

根据梯度下降的规则，我们可以用以下的公式来更新参数：

$\theta_j := \theta_j - \alpha \cdot \frac{\partial}{\partial \theta_j} J(\theta)$

其中， $α\alpha$ 是学习率，控制每次参数更新的步长。如果 $α\alpha$ 太大，可能会导致模型跳过最优解；如果 $α\alpha$ 太小，收敛速度会很慢。

$∂∂θjJ(θ)\frac{\partial}{\partial \theta_j} J(\theta)$ 是损失函数相对于参数 $θj\theta_j$ 的偏导数，表示当前参数的变化方向。

批量梯度下降（Batch Gradient Descent）：每次迭代时，使用整个训练集计算梯度并更新参数。
随机梯度下降（Stochastic Gradient Descent, SGD）：每次迭代时，只使用一个样本来计算梯度并更新参数。这样会有更快的更新速度，但噪声较大。
小批量梯度下降（Mini-batch Gradient Descent）：每次迭代时，使用一部分样本（称为小批量，通常是 32 或 64 个样本）来计算梯度并更新参数。这种方法兼具批量梯度下降和随机梯度下降的优点。