【机器学习】深度解析：理解等值图与梯度下降法如何让优化问题迎刃而解

梯度是一个向量，表示目标函数在某一点的变化率和方向。对于一个二元函数fxyf(x, y)fxy，梯度用符号∇f\nabla f∇f表示，其分量是∂f∂x∂f∂y∂x∂f∂y∂f。等值图与等高线图的关系：等值图用于表示目标函数在不同点的取值，类似于等高线图表示高度。等值图的形状：二次型目标函数的等值线是椭圆或圆，这是因为它们的解析形式。梯度与等值线的关系：梯度垂直于等值线，梯度下降法每一步沿负梯

拾一滴清水

1307人浏览 · 2024-07-16 21:32:37

拾一滴清水 · 2024-07-16 21:32:37 发布

目标函数的等值图与等高线图的关系

目标函数的等值图（等值线图）和等高线图是相似的概念，只是应用领域不同。等高线图用于地形图中表示高度，而等值图用于表示某个函数在不同点的取值。

等值图（等值线图）

定义：对于一个函数 $f (x, y)$ ，等值线是由满足 $f (x, y) = c$ 的点组成的曲线，其中 $c$ 是常数。在等值线上的所有点，函数 $f$ 的值都相同。
表示方法：在二维图中，等值线图使用一系列曲线来表示函数 $f (x, y)$ 的不同值。例如，不同的 $c$ 值对应不同的等值线。

等高线图

定义：等高线是指地表高度相同的点连成的曲线。
应用：在地形图中，等高线用于表示地形的起伏。每条等高线代表一个固定的高度，线与线之间的间隔表示高度差。

为什么等值图可以绘制成多个椭圆形或多个圆形？

许多解释随机梯度下降（SGD）的例子使用等值图，这些图通常呈现多个椭圆形或圆形。这是因为这些等值图通常来源于二次型目标函数。下面详细解释：

二次型目标函数

二次型目标函数通常具有以下形式：

$f(x, y) = ax^2 + bxy + cy^2 + dx + ey + f$

对于这样的函数，等值线由方程 $ax^2 + bxy + cy^2 = k$ （其中 $k$ 是常数）决定。

椭圆：一般情况下，二次型函数的等值线是椭圆。
圆形：在特定条件下（如 $a = c$ 且 $b = 0$ ），等值线是圆形。

特征值与特征向量

二次型函数可以用矩阵表示，例如 $f(w)=wTAw+bTw+cf(\mathbf{w}) = \mathbf{w}^T A \mathbf{w} + \mathbf{b}^T \mathbf{w} + c$ ，其中 $w\mathbf{w}$ 是变量向量， $A$ 是对称正定矩阵。
矩阵 $A$ 的特征值和特征向量决定了等值线的形状。特征值的大小决定了椭圆的轴长，特征向量决定了椭圆的方向。

线性回归和分类回归中的目标函数

对于线性回归和一些常见的分类方法，目标函数通常是二次型的。

线性回归

线性回归的目标是最小化预测值和真实值之间的差异，通常使用均方误差（MSE）作为目标函数：

$J(w)=12m∑i=1m(hw(x(i))−y(i))2J(\mathbf{w}) = \frac{1}{2m} \sum_{i=1}^{m} (h_{\mathbf{w}}(x^{(i)}) - y^{(i)})^2$

其中， $hw(x)=wTx+bh_{\mathbf{w}}(x) = \mathbf{w}^T \mathbf{x} + b$ 是线性模型的预测值。这个目标函数展开后是参数 $w\mathbf{w}$ 的二次函数。

逻辑回归

逻辑回归通过最小化负对数似然损失函数来最大化似然函数：

$J(w)=−1m∑i=1m[y(i)log⁡(hw(x(i)))+(1−y(i))log⁡(1−hw(x(i)))]J(\mathbf{w}) = - \frac{1}{m} \sum_{i=1}^{m} [y^{(i)} \log(h_{\mathbf{w}}(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_{\mathbf{w}}(x^{(i)}))]$

其中， $hw(x)=11+e−wTxh_{\mathbf{w}}(x) = \frac{1}{1 + e^{-\mathbf{w}^T \mathbf{x}}}$ 是逻辑回归模型的预测概率。

虽然这个目标函数不是二次的，但在优化过程中可以进行二次近似。

梯度与等值线的关系

梯度的定义

梯度是一个向量，表示目标函数在某一点的变化率和方向。对于一个二元函数 $f (x, y)$ ，梯度用符号 $∇f\nabla f$ 表示，其分量是 $(∂f∂x,∂f∂y)\left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right)$ 。

梯度与等值线的几何关系

梯度向量垂直于等值线，因为等值线上的点的函数值相同，梯度表示函数值增加最快的方向，自然垂直于等值线。
例如，等值线是地形图上的等高线，而梯度是从某点沿着坡度最大的方向向上的向量。

梯度下降法

梯度下降的步骤

梯度下降法通过迭代的方法来最小化目标函数。每一步迭代沿着负梯度的方向移动：

$wnew=wold−η∇f(wold)\mathbf{w}_{\text{new}} = \mathbf{w}_{\text{old}} - \eta \nabla f(\mathbf{w}_{\text{old}})$

其中， $w\mathbf{w}$ 是参数向量， $η\eta$ 是学习率， $∇f\nabla f$ 是梯度。

沿法线方向移动

在等值图上，梯度下降法每一步都沿着等值线的法线方向（负梯度方向）移动。这确保每一步都朝着降低目标函数值的方向前进，从而逐步逼近目标函数的最小值。

随机梯度下降法在二次型目标函数中的路径

极小值点

极小值点是目标函数的值最小的点。对于二次型目标函数，这个点通常是唯一的，并且在解析几何上可以通过设置梯度为零来找到。
对于 $f(w)f(\mathbf{w})$ ，极小值点 $w∗\mathbf{w}^*$ 满足 $∇f(w∗)=0\nabla f(\mathbf{w}^*) = 0$ ，解这个方程可以得到 $w∗\mathbf{w}^*$ 。