无约束问题的最优性条件-二阶条件

考虑二阶泰勒展开(假设f(x)f(x)f(x)是两次连续的,二阶可导的)
f(x+td)=f(x)+t∇f(x)d+12t2dT∇2f(x)d+o(t2)t→0f(x+td) = f(x) +t \nabla f(x) d + \frac{1}{2}t^2d^T\nabla^2 f(x)d + o(t^2) \quad t \rightarrow 0f(x+td)=f(x)+tf(x)d+21t2dT2f(x)d+o(t2)t0
当一阶必要条件(FONC)∇f(x)=0\nabla f(x) = 0f(x)=0 成立时,我们有:
f(x+td)=f(x)+12t2dT∇2f(x)d+o(t2)t→0f(x+td) = f(x) + \frac{1}{2}t^2d^T\nabla^2 f(x)d + o(t^2) \quad t \rightarrow 0f(x+td)=f(x)+21t2dT2f(x)d+o(t2)t0

为了使xxx成为一个局部极小点,我们还需要t2dT∇2f(x)dt^2d^T\nabla^2 f(x)dt2dT2f(x)d对于每个d∈Rnd \in R^ndRn是非负的。

二阶必要条件(SONC)

如果x⋆x^\starxfff的局部最小化点,那么它保持:
1.∇f(x⋆)=0\nabla f(x^\star)= 0f(x)=0
2.对于所有的d∈Rn:dTf2(x⋆)d≥0d \in R^n:d^\mathrm{T}f^2(x^\star)d \geq 0dRndTf2(x)d0
此处我们引入一个半定矩阵的概念:

定义:我们称对称矩阵为正(负)半定(PSD/NSD)MMM当且仅当MMM 所有xxx都有xTMx≥(≤)0x^\mathrm{T}Mx \geq(\leq) 0xTMx()0

备注:因此,二阶必要条件要求在x⋆x^\starx处的海森矩阵为PSD。在一维情况下,这相当于f′′(x⋆)≥0f^{''}(x^\star)≥0f′′(x)0

这里有一些关于PSD矩阵的有用的事实:

  1. 我们通常只讨论对称矩阵的PSD性质。
  2. 如果一个矩阵A不是对称的,我们使用 12(A+AT)\frac{1}{2} (A+A^T)21(A+AT) 来定义PSD属性(因为xTAx=12xT(A+AT)xx^TAx = \frac{1}{2}x^T(A + A^T)xxTAx=21xT(A+AT)x)。
  3. 当且仅当所有特征值均为非负时,A对称矩阵是PSD。
  4. 对于任何矩阵A,ATAA^TAATA是一个(对称的)PSD矩阵。

f(x)=x4−9x2+4x−1f(x) = x^4 - 9x^2 + 4x - 1f(x)=x49x2+4x1二阶条件为:
f′′(x⋆)=12x2−18≥0f^{''}(x^\star) = 12x^2-18\geq 0f′′(x)=12x2180
只有x2=−1−62,x3=2x_2 = -1 - \frac{\sqrt{6}}{2}, x_3 = 2x2=126 ,x3=2满足上述条件。也就是说x1x_1x1不是局部最小值点。

在最小二乘问题的例子中,我们有
min⁡β∥Xβ−y∥2 \begin{alignat}{2} \min_{\beta}\quad \Vert X\beta - y\Vert^2 \\ \end{alignat} βminy2

我们使用以下事实:
如果 f(x)=xTMxf(x) = x^TMxf(x)=xTMxMMM是对称的)∇2f(x)=2M\nabla^2 f(x) = 2M2f(x)=2M

因此,该问题中的黑森矩阵是2XTX2X^TX2XTX,它一直是一个PSD矩阵。因此,SONC始终成立。

二阶必要条件(SONC)仍然还不够充分

然而,即使一阶和二阶必要条件都成立,我们仍然不能保证候选条件是一个局部最小值。
示例:考虑在x=0x=0x=0处的f(x)=x3f (x) = x^3f(x)=x3

f′(x)=f′′(x)=0f^{'}(x) = f^{''} (x) = 0f(x)=f′′(x)=0 一阶二阶必要条件都成立,但x=0x=0x=0并不是一个局部的最小值。

一个满足∇f(x)=0\nabla f (x)=0f(x)=0的点 xxx 被称为临界点(critical point)或静止点(stationary point)。SONC可以用来进一步去除一些不是局部最小化点的平稳点。

二阶充分条件(SOSC)

假设fff二阶连续可导。如果x⋆x^\starx满足:

  1. ∇f(x⋆)=0\nabla f(x^\star) = 0f(x)=0
  2. 对所有的d∈Rn\{0}dT∇2f(x)d>0d \in R^n \backslash \{0\} \quad d^T\nabla^2 f(x)d > 0dRn\{0}dT2f(x)d>0;

PD矩阵必须是PSD(因此PD是一个更强的概念)。
对称矩阵是PD ⇔\Leftrightarrow 它的特征值都是正的。

证明 对称矩阵是PD ⇔\Leftrightarrow 它的特征值都是正的。

我们需要以下引理

引理:边界和特征值设A∈Rm×nA \in R^{m\times n}ARm×n 为对称矩阵。然后
λmin(A)∥x∥2≤xTAx≤λmax(A)∥x∥2∀x∈Rn\lambda_{min} (A)\Vert x \Vert^2 \leq x^TAx \leq \lambda_{max}(A) \Vert x \Vert^2 \quad \forall x \in R^nλmin(A)x2xTAxλmax(A)x2xRn

λmin(A)\lambda_{min} (A)λmin(A)λmax(A)\lambda_{max}(A)λmax(A)是A中最小、最大的特征值。

证明再次通过泰勒展开,即:

f(x+d)=f(x)+12t2dT∇2f(x)d+o(∥d∥2)∥d∥→0f(x+d) = f(x) + \frac{1}{2}t^2d^T\nabla^2 f(x)d + o(\Vert d \Vert^2) \quad \Vert d \Vert \rightarrow 0f(x+d)=f(x)+21t2dT2f(x)d+o(d2)d0

∇2f(x⋆)\nabla^2 f(x^\star)2f(x)是一个正定矩阵,我们能发现dT∇2f(x⋆)d≥μ∥d∥2d^T\nabla^2 f(x^\star)d \geq \mu \Vert d \Vert^2dT2f(x)dμd2, μ>0\mu>0μ>0 是A的最小特征值。
因此,我们发现
f(x+d)≥f(x)+12μ∥d∥2+o(∥d∥2)=f(x)+∥d∥2(μ2+o(∥d∥2)∥d∥2) f(x+d) \geq f(x) +\frac{1}{2}\mu \Vert d \Vert^2 + o(\Vert d \Vert^2) = f(x) + \Vert d \Vert^2 (\frac{\mu}{2} + \frac{o(\Vert d \Vert^2)}{ \Vert d \Vert^2}) f(x+d)f(x)+21μd2+o(d2)=f(x)+d2(2μ+d2o(d2))

既然 ∥d∥→0\Vert d \Vert \rightarrow 0d0 我们发现 o(∥d∥2)∥d∥2≥−μ4\frac{o(\Vert d \Vert^2) }{ \Vert d \Vert^2} \geq -\frac{\mu}{4}d2o(d2)4μ 也就证明了f(x⋆)>f(x⋆+d)f(x^\star) > f(x^\star + d)f(x)>f(x+d)

对于最大化问题

我们推导出了最小化问题的条件。对于最大化问题,我们只是改变不等式。设 f∈C2f\in C^2fC2(二阶连续可导)。

定理:最大化的FONC:
如果x⋆x^\starx是一个局部的(无约束的)最大化点,那么我们必须有∇f(x⋆)=0\nabla f(x^\star)=0f(x)=0

定理: 最大化的SONC:
如果x⋆x^\starx是一个局部最大化点,那么我们必须有1. ∇f(x⋆)=0\nabla f (x^\star)=0f(x)=0; 2.∇2f(x⋆)\nabla^2f(x^\star)2fx是负半定的。

定理:最大化SOSC:
如果x⋆x^\starx 满足1. ∇f(x⋆)=0\nabla f (x^\star)=0f(x)=0; 2.∇2f(x⋆)\nabla^2f(x^\star)2fx是负定的,那么x⋆x^\starx是一个严格的局部极大值点。

无约束问题的最优性条件

无约束问题的最优性条件:一阶必要条件(FONC)。二阶必要条件(SONC)。二阶充分条件(SOSC)(对于严格的局部最小值)。
在某些情况下,我们可以利用这些条件来确定局部和全局最优解。
一般策略:
使用FONC和SONC来确定所有可能的候选。然后,利用充分条件进行验证。如果一个问题只有一个平稳点,并且可以推断这个问题必须有一个有限的最优解,那么这个点必须是全局最优解。

例子

在示例f(x)=x4−9x2+4x−1f (x) = x^4−9x^2 + 4x−1f(x)=x49x2+4x1中,点x1和x3满足二阶充分条件(f′′(x)>0f^{''}(x) > 0f′′(x)>0),是严格的局部极小点。

在最小二乘问题中,如果XTXX^TXXTX是正定的(或者它是可逆的),那么FONC XTXβ=XyX^TX\beta = XyXT=Xy的解 β\betaβ 是唯一的,并且它满足二阶充分条件(严格局部极小化)

不确定性和鞍点

定义:

  1. 一个满足∇f(x)=0\nabla f (x)=0f(x)=0的点 xxx 被称为临界点(critical point)或静止点(stationary point)。
  2. 如果一个平稳点既不是局部极小化,也不是局部极大化,则称为鞍点。

推论:鞍点
假设x⋆x^\starx是一个平稳点(∇f(x⋆)=0\nabla f(x^\star)=0f(x)=0),海森矩阵∇2f(x⋆)\nabla^2f(x^\star)2f(x)是不定的,那么x⋆x^\starx是一个鞍点。
注:不定指非正(负)半定

实例二

我们考虑二维优化问题:
min⁡x∈R2f(x)=x12x2+x1x23−5x1x2 \begin{alignat}{2} \min_{x \in R^2}\quad f(x) = x_1^2x_2 + x_1x_2^3 − 5x_1x_2 \\ \end{alignat} xR2minf(x)=x12x2+x1x235x1x2

找到fff的所有局部最小化、局部极大化和鞍点

第一步: 计算所有平稳点

∇f(x)=[2x1x2+x23+5x2x12+3x1x22−5x1] \begin{equation} \nabla f(x)=\left[ \begin{array}{c} 2x_1x_2 + x_2^3 + 5x_2\\ x_1^2 + 3x_1x_2^2-5x_1\\ \end{array} \right] \end{equation}f(x)=[2x1x2+x23+5x2x12+3x1x225x1]

∇f(x)=0\nabla f(x) = 0f(x)=0,我们得到6个平稳点[x1x2]\left[ \begin{array}{c} x_1\\ x_2\\ \end{array} \right][x1x2]

步骤二:
∇f(x)=[2x2,2x1+3x22−52x1+3x22−5,6x1x2] \begin{equation} \nabla f(x)=\left[ \begin{array}{cc} 2x_2, 2x_1 + 3x_2^2-5\\ 2x_1 + 3x_2^2-5, 6x_1x_2\\ \end{array} \right] \end{equation}f(x)=[2x2,2x1+3x2252x1+3x225,6x1x2]
图表
函数图像

示例三–鞍点

在这里插入图片描述
函数f(x)=x12−x22f(x) = x_1^2 - x_2^2f(x)=x12x22图像

梯度为∇f(x)=(2x1,−2x2)T,x⋆=(0,0)T\nabla f (x) =(2x_1,−2x_2)^T,x^\star =(0, 0)^Tf(x)=(2x12x2)Tx=(0,0)Tfff的单个平稳点。由于∇2f(x⋆)\nabla^2f(x^\star)2f(x)是不定的,所以x⋆x^\starx必须是一个鞍点。
注: 鞍点不一定有一个不定的海森矩阵,例如f(x)=x3f(x) = x^3f(x)=x3

示例四

是否存在局部最小化点满足SONC而不满足SOSC的情况?是的。实际上,任何非严格的局部极小化器都会是这样的情况。考虑以下函数:

在这里插入图片描述

我们有SONC满足所有的−1≤x≤1−1\leq x \leq 11x1,但SOSC不满足。然而,很清楚地看到−1≤x≤1−1\leq x \leq 11x1上的所有点都是(非严格)局部极小点。

总结

  1. 所有的平稳点(FONC)都是局部极小化器的候选点。(不充分)
  2. SONC可以进一步去除一些非局部极小化的平稳点,包括局部极大点和具有不定海森矩阵的鞍点。
  3. SOSC可以用来充分识别严格的局部极小值。
  4. 对于具有PSD Hessian的非严格局部极小值和鞍点(考虑x=0x=0x=0处的x3x_3x3),SONC在两种情况下都满足。到目前为止,我们还没有足够的条件来识别它们。

到目前为止,我们研究了无约束问题的最优性条件。下一节课,我们将开始研究受约束问题的最优性条件。

内容来自cuhksz mat3007的ppt Professor Li Xiao,翻译为中文,修改了小部分,加入了一些笔者自己的理解。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐