无约束问题的最优性条件----二阶条件(二)
所有的平稳点(FONC)都是局部极小化器的候选点。(不充分)SONC可以进一步去除一些非局部极小化的平稳点,包括局部极大点和具有不定海森矩阵的鞍点。SOSC可以用来充分识别严格的局部极小值。对于具有PSD Hessian的非严格局部极小值和鞍点(考虑x0x=0x0处的x3x_3x3),SONC在两种情况下都满足。到目前为止,我们还没有足够的条件来识别它们。到目前为止,我们研究了无约束问题的最优性
无约束问题的最优性条件-二阶条件
考虑二阶泰勒展开(假设f(x)f(x)f(x)是两次连续的,二阶可导的)
f(x+td)=f(x)+t∇f(x)d+12t2dT∇2f(x)d+o(t2)t→0f(x+td) = f(x) +t \nabla f(x) d + \frac{1}{2}t^2d^T\nabla^2 f(x)d + o(t^2) \quad t \rightarrow 0f(x+td)=f(x)+t∇f(x)d+21t2dT∇2f(x)d+o(t2)t→0
当一阶必要条件(FONC)∇f(x)=0\nabla f(x) = 0∇f(x)=0 成立时,我们有:
f(x+td)=f(x)+12t2dT∇2f(x)d+o(t2)t→0f(x+td) = f(x) + \frac{1}{2}t^2d^T\nabla^2 f(x)d + o(t^2) \quad t \rightarrow 0f(x+td)=f(x)+21t2dT∇2f(x)d+o(t2)t→0
为了使xxx成为一个局部极小点,我们还需要t2dT∇2f(x)dt^2d^T\nabla^2 f(x)dt2dT∇2f(x)d对于每个d∈Rnd \in R^nd∈Rn是非负的。
二阶必要条件(SONC)
如果x⋆x^\starx⋆是fff的局部最小化点,那么它保持:
1.∇f(x⋆)=0\nabla f(x^\star)= 0∇f(x⋆)=0;
2.对于所有的d∈Rn:dTf2(x⋆)d≥0d \in R^n:d^\mathrm{T}f^2(x^\star)d \geq 0d∈Rn:dTf2(x⋆)d≥0。
此处我们引入一个半定矩阵的概念:
定义:我们称对称矩阵为正(负)半定(PSD/NSD)MMM当且仅当MMM 所有xxx都有xTMx≥(≤)0x^\mathrm{T}Mx \geq(\leq) 0xTMx≥(≤)0
备注:因此,二阶必要条件要求在x⋆x^\starx⋆处的海森矩阵为PSD。在一维情况下,这相当于f′′(x⋆)≥0f^{''}(x^\star)≥0f′′(x⋆)≥0
这里有一些关于PSD矩阵的有用的事实:
- 我们通常只讨论对称矩阵的PSD性质。
- 如果一个矩阵A不是对称的,我们使用 12(A+AT)\frac{1}{2} (A+A^T)21(A+AT) 来定义PSD属性(因为xTAx=12xT(A+AT)xx^TAx = \frac{1}{2}x^T(A + A^T)xxTAx=21xT(A+AT)x)。
- 当且仅当所有特征值均为非负时,A对称矩阵是PSD。
- 对于任何矩阵A,ATAA^TAATA是一个(对称的)PSD矩阵。
f(x)=x4−9x2+4x−1f(x) = x^4 - 9x^2 + 4x - 1f(x)=x4−9x2+4x−1二阶条件为:
f′′(x⋆)=12x2−18≥0f^{''}(x^\star) = 12x^2-18\geq 0f′′(x⋆)=12x2−18≥0
只有x2=−1−62,x3=2x_2 = -1 - \frac{\sqrt{6}}{2}, x_3 = 2x2=−1−26,x3=2满足上述条件。也就是说x1x_1x1不是局部最小值点。
在最小二乘问题的例子中,我们有
minβ∥Xβ−y∥2 \begin{alignat}{2} \min_{\beta}\quad \Vert X\beta - y\Vert^2 \\ \end{alignat} βmin∥Xβ−y∥2
我们使用以下事实:
如果 f(x)=xTMxf(x) = x^TMxf(x)=xTMx(MMM是对称的)∇2f(x)=2M\nabla^2 f(x) = 2M∇2f(x)=2M
因此,该问题中的黑森矩阵是2XTX2X^TX2XTX,它一直是一个PSD矩阵。因此,SONC始终成立。
二阶必要条件(SONC)仍然还不够充分
然而,即使一阶和二阶必要条件都成立,我们仍然不能保证候选条件是一个局部最小值。
示例:考虑在x=0x=0x=0处的f(x)=x3f (x) = x^3f(x)=x3
f′(x)=f′′(x)=0f^{'}(x) = f^{''} (x) = 0f′(x)=f′′(x)=0 一阶二阶必要条件都成立,但x=0x=0x=0并不是一个局部的最小值。
一个满足∇f(x)=0\nabla f (x)=0∇f(x)=0的点 xxx 被称为临界点(critical point)或静止点(stationary point)。SONC可以用来进一步去除一些不是局部最小化点的平稳点。
二阶充分条件(SOSC)
假设fff二阶连续可导。如果x⋆x^\starx⋆满足:
- ∇f(x⋆)=0\nabla f(x^\star) = 0∇f(x⋆)=0
- 对所有的d∈Rn\{0}dT∇2f(x)d>0d \in R^n \backslash \{0\} \quad d^T\nabla^2 f(x)d > 0d∈Rn\{0}dT∇2f(x)d>0;
PD矩阵必须是PSD(因此PD是一个更强的概念)。
对称矩阵是PD ⇔\Leftrightarrow⇔ 它的特征值都是正的。
证明 对称矩阵是PD ⇔\Leftrightarrow⇔ 它的特征值都是正的。
我们需要以下引理
引理:边界和特征值设A∈Rm×nA \in R^{m\times n}A∈Rm×n 为对称矩阵。然后
λmin(A)∥x∥2≤xTAx≤λmax(A)∥x∥2∀x∈Rn\lambda_{min} (A)\Vert x \Vert^2 \leq x^TAx \leq \lambda_{max}(A) \Vert x \Vert^2 \quad \forall x \in R^nλmin(A)∥x∥2≤xTAx≤λmax(A)∥x∥2∀x∈Rn
λmin(A)\lambda_{min} (A)λmin(A) 和λmax(A)\lambda_{max}(A)λmax(A)是A中最小、最大的特征值。
证明再次通过泰勒展开,即:
f(x+d)=f(x)+12t2dT∇2f(x)d+o(∥d∥2)∥d∥→0f(x+d) = f(x) + \frac{1}{2}t^2d^T\nabla^2 f(x)d + o(\Vert d \Vert^2) \quad \Vert d \Vert \rightarrow 0f(x+d)=f(x)+21t2dT∇2f(x)d+o(∥d∥2)∥d∥→0
当∇2f(x⋆)\nabla^2 f(x^\star)∇2f(x⋆)是一个正定矩阵,我们能发现dT∇2f(x⋆)d≥μ∥d∥2d^T\nabla^2 f(x^\star)d \geq \mu \Vert d \Vert^2dT∇2f(x⋆)d≥μ∥d∥2, μ>0\mu>0μ>0 是A的最小特征值。
因此,我们发现
f(x+d)≥f(x)+12μ∥d∥2+o(∥d∥2)=f(x)+∥d∥2(μ2+o(∥d∥2)∥d∥2) f(x+d) \geq f(x) +\frac{1}{2}\mu \Vert d \Vert^2 + o(\Vert d \Vert^2) = f(x) + \Vert d \Vert^2 (\frac{\mu}{2} + \frac{o(\Vert d \Vert^2)}{ \Vert d \Vert^2}) f(x+d)≥f(x)+21μ∥d∥2+o(∥d∥2)=f(x)+∥d∥2(2μ+∥d∥2o(∥d∥2))
既然 ∥d∥→0\Vert d \Vert \rightarrow 0∥d∥→0 我们发现 o(∥d∥2)∥d∥2≥−μ4\frac{o(\Vert d \Vert^2) }{ \Vert d \Vert^2} \geq -\frac{\mu}{4}∥d∥2o(∥d∥2)≥−4μ 也就证明了f(x⋆)>f(x⋆+d)f(x^\star) > f(x^\star + d)f(x⋆)>f(x⋆+d)
对于最大化问题
我们推导出了最小化问题的条件。对于最大化问题,我们只是改变不等式。设 f∈C2f\in C^2f∈C2(二阶连续可导)。
定理:最大化的FONC:
如果x⋆x^\starx⋆是一个局部的(无约束的)最大化点,那么我们必须有∇f(x⋆)=0\nabla f(x^\star)=0∇f(x⋆)=0
定理: 最大化的SONC:
如果x⋆x^\starx⋆是一个局部最大化点,那么我们必须有1. ∇f(x⋆)=0\nabla f (x^\star)=0∇f(x⋆)=0; 2.∇2f(x⋆)\nabla^2f(x^\star)∇2f(x⋆)是负半定的。
定理:最大化SOSC:
如果x⋆x^\starx⋆ 满足1. ∇f(x⋆)=0\nabla f (x^\star)=0∇f(x⋆)=0; 2.∇2f(x⋆)\nabla^2f(x^\star)∇2f(x⋆)是负定的,那么x⋆x^\starx⋆是一个严格的局部极大值点。
无约束问题的最优性条件
无约束问题的最优性条件:一阶必要条件(FONC)。二阶必要条件(SONC)。二阶充分条件(SOSC)(对于严格的局部最小值)。
在某些情况下,我们可以利用这些条件来确定局部和全局最优解。
一般策略:
使用FONC和SONC来确定所有可能的候选。然后,利用充分条件进行验证。如果一个问题只有一个平稳点,并且可以推断这个问题必须有一个有限的最优解,那么这个点必须是全局最优解。
例子
在示例f(x)=x4−9x2+4x−1f (x) = x^4−9x^2 + 4x−1f(x)=x4−9x2+4x−1中,点x1和x3满足二阶充分条件(f′′(x)>0f^{''}(x) > 0f′′(x)>0),是严格的局部极小点。
在最小二乘问题中,如果XTXX^TXXTX是正定的(或者它是可逆的),那么FONC XTXβ=XyX^TX\beta = XyXTXβ=Xy的解 β\betaβ 是唯一的,并且它满足二阶充分条件(严格局部极小化)
不确定性和鞍点
定义:
- 一个满足∇f(x)=0\nabla f (x)=0∇f(x)=0的点 xxx 被称为临界点(critical point)或静止点(stationary point)。
- 如果一个平稳点既不是局部极小化,也不是局部极大化,则称为鞍点。
推论:鞍点
假设x⋆x^\starx⋆是一个平稳点(∇f(x⋆)=0\nabla f(x^\star)=0∇f(x⋆)=0),海森矩阵∇2f(x⋆)\nabla^2f(x^\star)∇2f(x⋆)是不定的,那么x⋆x^\starx⋆是一个鞍点。
注:不定指非正(负)半定
实例二
我们考虑二维优化问题:
minx∈R2f(x)=x12x2+x1x23−5x1x2 \begin{alignat}{2} \min_{x \in R^2}\quad f(x) = x_1^2x_2 + x_1x_2^3 − 5x_1x_2 \\ \end{alignat} x∈R2minf(x)=x12x2+x1x23−5x1x2
找到fff的所有局部最小化、局部极大化和鞍点
第一步: 计算所有平稳点
∇f(x)=[2x1x2+x23+5x2x12+3x1x22−5x1] \begin{equation} \nabla f(x)=\left[ \begin{array}{c} 2x_1x_2 + x_2^3 + 5x_2\\ x_1^2 + 3x_1x_2^2-5x_1\\ \end{array} \right] \end{equation}∇f(x)=[2x1x2+x23+5x2x12+3x1x22−5x1]
让 ∇f(x)=0\nabla f(x) = 0∇f(x)=0,我们得到6个平稳点[x1x2]\left[ \begin{array}{c} x_1\\ x_2\\ \end{array} \right][x1x2]
步骤二:
∇f(x)=[2x2,2x1+3x22−52x1+3x22−5,6x1x2] \begin{equation} \nabla f(x)=\left[ \begin{array}{cc} 2x_2, 2x_1 + 3x_2^2-5\\ 2x_1 + 3x_2^2-5, 6x_1x_2\\ \end{array} \right] \end{equation}∇f(x)=[2x2,2x1+3x22−52x1+3x22−5,6x1x2]

示例三–鞍点

函数f(x)=x12−x22f(x) = x_1^2 - x_2^2f(x)=x12−x22图像
梯度为∇f(x)=(2x1,−2x2)T,x⋆=(0,0)T\nabla f (x) =(2x_1,−2x_2)^T,x^\star =(0, 0)^T∇f(x)=(2x1,−2x2)T,x⋆=(0,0)T为fff的单个平稳点。由于∇2f(x⋆)\nabla^2f(x^\star)∇2f(x⋆)是不定的,所以x⋆x^\starx⋆必须是一个鞍点。
注: 鞍点不一定有一个不定的海森矩阵,例如f(x)=x3f(x) = x^3f(x)=x3
示例四
是否存在局部最小化点满足SONC而不满足SOSC的情况?是的。实际上,任何非严格的局部极小化器都会是这样的情况。考虑以下函数:

我们有SONC满足所有的−1≤x≤1−1\leq x \leq 1−1≤x≤1,但SOSC不满足。然而,很清楚地看到−1≤x≤1−1\leq x \leq 1−1≤x≤1上的所有点都是(非严格)局部极小点。
总结
- 所有的平稳点(FONC)都是局部极小化器的候选点。(不充分)
- SONC可以进一步去除一些非局部极小化的平稳点,包括局部极大点和具有不定海森矩阵的鞍点。
- SOSC可以用来充分识别严格的局部极小值。
- 对于具有PSD Hessian的非严格局部极小值和鞍点(考虑x=0x=0x=0处的x3x_3x3),SONC在两种情况下都满足。到目前为止,我们还没有足够的条件来识别它们。
到目前为止,我们研究了无约束问题的最优性条件。下一节课,我们将开始研究受约束问题的最优性条件。
内容来自cuhksz mat3007的ppt Professor Li Xiao,翻译为中文,修改了小部分,加入了一些笔者自己的理解。
更多推荐


所有评论(0)