无约束问题的最优性条件----二阶条件（二）

所有的平稳点（FONC）都是局部极小化器的候选点。（不充分）SONC可以进一步去除一些非局部极小化的平稳点，包括局部极大点和具有不定海森矩阵的鞍点。SOSC可以用来充分识别严格的局部极小值。对于具有PSD Hessian的非严格局部极小值和鞍点（考虑x0x=0x0处的x3x_3x3），SONC在两种情况下都满足。到目前为止，我们还没有足够的条件来识别它们。到目前为止，我们研究了无约束问题的最优性

红豆怪怪

2703人浏览 · 2023-04-09 19:53:41

红豆怪怪 · 2023-04-09 19:53:41 发布

无约束问题的最优性条件-二阶条件

考虑二阶泰勒展开（假设 $f (x)$ 是两次连续的，二阶可导的）
$\nabla f(x) d + \frac{1}{2}t^2d^T\nabla^2 f(x)d + o(t^2) \quad t \rightarrow 0$
当一阶必要条件（FONC） $∇f(x)=0\nabla f(x) = 0$ 成立时，我们有：
$\frac{1}{2}t^2d^T\nabla^2 f(x)d + o(t^2) \quad t \rightarrow 0$

为了使 $x$ 成为一个局部极小点，我们还需要 $t2dT∇2f(x)dt^2d^T\nabla^2 f(x)d$ 对于每个 $\in R^n$ 是非负的。

二阶必要条件（SONC）

如果 $x⋆x^\star$ 是 $f$ 的局部最小化点，那么它保持：
1. $∇f(x⋆)=0\nabla f(x^\star)= 0$ ；
2.对于所有的 $\in R^n：d^\mathrm{T}f^2(x^\star)d \geq 0$ 。
此处我们引入一个半定矩阵的概念：

定义：我们称对称矩阵为正(负）半定（PSD/NSD） $M$ 当且仅当 $M$ 所有 $x$ 都有 $xTMx≥(≤)0x^\mathrm{T}Mx \geq(\leq) 0$

备注：因此，二阶必要条件要求在 $x⋆x^\star$ 处的海森矩阵为PSD。在一维情况下，这相当于 $f′′(x⋆)≥0f^{''}(x^\star)≥0$

这里有一些关于PSD矩阵的有用的事实：

我们通常只讨论对称矩阵的PSD性质。
如果一个矩阵A不是对称的，我们使用 $12(A+AT)\frac{1}{2} (A+A^T)$ 来定义PSD属性（因为 $xTAx=12xT(A+AT)xx^TAx = \frac{1}{2}x^T(A + A^T)x$ ）。
当且仅当所有特征值均为非负时，A对称矩阵是PSD。
对于任何矩阵A， $A^TA$ 是一个（对称的）PSD矩阵。

$f(x) = x^4 - 9x^2 + 4x - 1$ 二阶条件为：
$f′′(x⋆)=12x2−18≥0f^{''}(x^\star) = 12x^2-18\geq 0$
只有 $x2=−1−62,x3=2x_2 = -1 - \frac{\sqrt{6}}{2}, x_3 = 2$ 满足上述条件。也就是说 $x_1$ 不是局部最小值点。

在最小二乘问题的例子中，我们有
$\begin{alignat}{2} \min_{\beta}\quad \Vert X\beta - y\Vert^2 \\ \end{alignat}$

我们使用以下事实：
如果 $f(x) = x^TMx$ （ $M$ 是对称的） $∇2f(x)=2M\nabla^2 f(x) = 2M$

因此，该问题中的黑森矩阵是 $2X^TX$ ，它一直是一个PSD矩阵。因此，SONC始终成立。

二阶必要条件（SONC）仍然还不够充分

然而，即使一阶和二阶必要条件都成立，我们仍然不能保证候选条件是一个局部最小值。
示例：考虑在 $x = 0$ 处的 $f (x) = x^3$

$f^{'}(x) = f^{''} (x) = 0$ 一阶二阶必要条件都成立，但 $x = 0$ 并不是一个局部的最小值。

一个满足 $∇f(x)=0\nabla f (x)=0$ 的点 $x$ 被称为临界点（critical point）或静止点（stationary point）。SONC可以用来进一步去除一些不是局部最小化点的平稳点。

二阶充分条件（SOSC）

假设 $f$ 二阶连续可导。如果 $x⋆x^\star$ 满足：

$∇f(x⋆)=0\nabla f(x^\star) = 0$
对所有的 $d∈Rn\{0}dT∇2f(x)d>0d \in R^n \backslash \{0\} \quad d^T\nabla^2 f(x)d > 0$ ;

PD矩阵必须是PSD（因此PD是一个更强的概念）。
对称矩阵是PD $⇔\Leftrightarrow$ 它的特征值都是正的。

证明对称矩阵是PD $⇔\Leftrightarrow$ 它的特征值都是正的。

我们需要以下引理

引理：边界和特征值设 $\in R^{m\times n}$ 为对称矩阵。然后
$λmin(A)∥x∥2≤xTAx≤λmax(A)∥x∥2∀x∈Rn\lambda_{min} (A)\Vert x \Vert^2 \leq x^TAx \leq \lambda_{max}(A) \Vert x \Vert^2 \quad \forall x \in R^n$

$λmin(A)\lambda_{min} (A)$ 和 $λmax(A)\lambda_{max}(A)$ 是A中最小、最大的特征值。

证明再次通过泰勒展开，即：

$\frac{1}{2}t^2d^T\nabla^2 f(x)d + o(\Vert d \Vert^2) \quad \Vert d \Vert \rightarrow 0$

当 $∇2f(x⋆)\nabla^2 f(x^\star)$ 是一个正定矩阵，我们能发现 $dT∇2f(x⋆)d≥μ∥d∥2d^T\nabla^2 f(x^\star)d \geq \mu \Vert d \Vert^2$ , $μ>0\mu>0$ 是A的最小特征值。
因此，我们发现
$\geq f(x) +\frac{1}{2}\mu \Vert d \Vert^2 + o(\Vert d \Vert^2) = f(x) + \Vert d \Vert^2 (\frac{\mu}{2} + \frac{o(\Vert d \Vert^2)}{ \Vert d \Vert^2})$

既然 $∥d∥→0\Vert d \Vert \rightarrow 0$ 我们发现 $o(∥d∥2)∥d∥2≥−μ4\frac{o(\Vert d \Vert^2) }{ \Vert d \Vert^2} \geq -\frac{\mu}{4}$ 也就证明了 $f(x⋆)>f(x⋆+d)f(x^\star) > f(x^\star + d)$

对于最大化问题

我们推导出了最小化问题的条件。对于最大化问题，我们只是改变不等式。设 $f∈C2f\in C^2$ （二阶连续可导）。

定理：最大化的FONC:
如果 $x⋆x^\star$ 是一个局部的（无约束的）最大化点，那么我们必须有 $∇f(x⋆)=0\nabla f(x^\star)=0$

定理：最大化的SONC:
如果 $x⋆x^\star$ 是一个局部最大化点，那么我们必须有1. $∇f(x⋆)=0\nabla f (x^\star)=0$ ; 2. $∇2f（x⋆）\nabla^2f（x^\star）$ 是负半定的。

定理：最大化SOSC:
如果 $x⋆x^\star$ 满足1. $∇f(x⋆)=0\nabla f (x^\star)=0$ ; 2. $∇2f（x⋆）\nabla^2f（x^\star）$ 是负定的，那么 $x⋆x^\star$ 是一个严格的局部极大值点。

无约束问题的最优性条件

无约束问题的最优性条件：一阶必要条件（FONC）。二阶必要条件（SONC）。二阶充分条件（SOSC）（对于严格的局部最小值）。
在某些情况下，我们可以利用这些条件来确定局部和全局最优解。
一般策略：
使用FONC和SONC来确定所有可能的候选。然后，利用充分条件进行验证。如果一个问题只有一个平稳点，并且可以推断这个问题必须有一个有限的最优解，那么这个点必须是全局最优解。

例子

在示例 $f (x) = x^4−9x^2 + 4x−1$ 中，点x1和x3满足二阶充分条件（ $f^{''}(x) > 0$ ），是严格的局部极小点。

在最小二乘问题中，如果 $X^TX$ 是正定的（或者它是可逆的），那么FONC $XTXβ=XyX^TX\beta = Xy$ 的解 $β\beta$ 是唯一的，并且它满足二阶充分条件（严格局部极小化）

不确定性和鞍点

定义：

一个满足 $∇f(x)=0\nabla f (x)=0$ 的点 $x$ 被称为临界点（critical point）或静止点（stationary point）。
如果一个平稳点既不是局部极小化，也不是局部极大化，则称为鞍点。

推论：鞍点
假设 $x⋆x^\star$ 是一个平稳点（ $∇f(x⋆)=0\nabla f(x^\star)=0$ ），海森矩阵 $∇2f(x⋆)\nabla^2f(x^\star)$ 是不定的，那么 $x⋆x^\star$ 是一个鞍点。
注：不定指非正（负）半定

实例二

我们考虑二维优化问题：
$\begin{alignat}{2} \min_{x \in R^2}\quad f(x) = x_1^2x_2 + x_1x_2^3 − 5x_1x_2 \\ \end{alignat}$

找到 $f$ 的所有局部最小化、局部极大化和鞍点

第一步： 计算所有平稳点

$\begin{equation} \nabla f(x)=\left[ \begin{array}{c} 2x_1x_2 + x_2^3 + 5x_2\\ x_1^2 + 3x_1x_2^2-5x_1\\ \end{array} \right] \end{equation}$

让 $∇f(x)=0\nabla f(x) = 0$ ，我们得到6个平稳点 $[x1x2]\left[ \begin{array}{c} x_1\\ x_2\\ \end{array} \right]$

步骤二：
$\begin{equation} \nabla f(x)=\left[ \begin{array}{cc} 2x_2, 2x_1 + 3x_2^2-5\\ 2x_1 + 3x_2^2-5, 6x_1x_2\\ \end{array} \right] \end{equation}$

函数图像

示例三–鞍点

在这里插入图片描述
函数 $f(x) = x_1^2 - x_2^2$ 图像

梯度为 $∇f(x)=(2x1，−2x2)T，x⋆=(0,0)T\nabla f (x) =(2x_1，−2x_2)^T，x^\star =(0, 0)^T$ 为 $f$ 的单个平稳点。由于 $∇2f(x⋆)\nabla^2f(x^\star)$ 是不定的，所以 $x⋆x^\star$ 必须是一个鞍点。
注：鞍点不一定有一个不定的海森矩阵，例如 $f(x) = x^3$

示例四

是否存在局部最小化点满足SONC而不满足SOSC的情况？是的。实际上，任何非严格的局部极小化器都会是这样的情况。考虑以下函数：

在这里插入图片描述

我们有SONC满足所有的 $−1≤x≤1−1\leq x \leq 1$ ，但SOSC不满足。然而，很清楚地看到 $−1≤x≤1−1\leq x \leq 1$ 上的所有点都是（非严格）局部极小点。

总结

所有的平稳点（FONC）都是局部极小化器的候选点。（不充分）
SONC可以进一步去除一些非局部极小化的平稳点，包括局部极大点和具有不定海森矩阵的鞍点。
SOSC可以用来充分识别严格的局部极小值。
对于具有PSD Hessian的非严格局部极小值和鞍点（考虑 $x = 0$ 处的 $x_3$ ），SONC在两种情况下都满足。到目前为止，我们还没有足够的条件来识别它们。

到目前为止，我们研究了无约束问题的最优性条件。下一节课，我们将开始研究受约束问题的最优性条件。

内容来自cuhksz mat3007的ppt Professor Li Xiao，翻译为中文，修改了小部分，加入了一些笔者自己的理解。

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

1个匠厂AI，抵过5个熟练人工。

2048 AI社区

投入一份，收益十倍：匠厂ROA的魅力。

2048 AI社区

全链路、可参考、AI降噪的运营商API安全解决方案

全知科技作为国内领先的API安全厂商，凭借知影-API风险监测系统在安全领域的突出表现，不仅在国内市场屡获认可，还在国际舞台上赢得权威肯定。《数据安全法》《个人信息保护法》明确运营商数据安全主体责任，《电信行业数据分类分级方法》等文件进一步细化 API 管控要求，集团层面则将 API 风险监测纳入年度考核指标，要求实现接口资产可视、风险可控、事件可追溯。围绕“接口全可视、风险全可控、责任可追溯”的