Hessian矩阵及局部极小点的条件

一 Hessian矩阵：实值函数f(x)相对于n×1n×1n\times 1实向量x的二阶偏导是一个由m2m2m^2个二阶偏导组成的矩阵（称为Hessian矩阵），定义为：∂2f(x)∂x∂xT=∂∂xT[∂f(x)∂x]∂2f(x)∂x∂xT=∂∂xT[∂f(x)∂x]{\partial ^2f(x)\over \partial x \partial x^T}={\partial \ov...

Flying_sfeng

12528人浏览 · 2018-07-25 11:02:22

Flying_sfeng · 2018-07-25 11:02:22 发布

一 Hessian矩阵：
实值函数f(x)相对于n×1<script type="math/tex" id="MathJax-Element-48">n\times 1</script>实向量x的二阶偏导是一个由m2<script type="math/tex" id="MathJax-Element-49">m^2</script>个二阶偏导组成的矩阵（称为Hessian矩阵），定义为：

\partial 2 f ( x ) \partial x \partial x T = \partial \partial x T [\partial f ( x ) \partial x]

\nabla 2 x f (x) = \nabla x (\nabla x f (x))

∂f(x)∂xi=∇xif(x)∂f(x)∂xi=∇xif(x)<script type="math/tex" id="MathJax-Element-52">{\partial f(x)\over \partial {x_i}}=\nabla_{x_i}f(x)</script>第j个分量的梯度，即：

[\partial 2 f ( x ) \partial x \partial x T] i, j = \partial 2 f ( x ) \partial x i \partial x j

\partial 2 f ( x ) \partial x \partial x T = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial 2 f ( x ) \partial x 1 \partial x 1 \partial 2 f ( x ) \partial x 2 \partial x 1 ⋮ \partial 2 f ( x ) \partial x n \partial x 1 \partial 2 f ( x ) \partial x 1 \partial x 2 \partial 2 f ( x ) \partial x 2 \partial x 2 ⋮ \partial 2 f ( x ) \partial x n \partial x 2 \dots \dots ⋱ \dots \partial 2 f ( x ) \partial x 1 \partial x n \partial 2 f ( x ) \partial x 2 \partial x n ⋮ \partial 2 f ( x ) \partial x n \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

∂f(x)∂x；∂f(x)∂x；<script type="math/tex" id="MathJax-Element-55">{\partial f(x)\over \partial {x}}；</script>
（2）再求梯度

∂f(x)∂x∂f(x)∂x<script type="math/tex" id="MathJax-Element-56">{\partial f(x)\over \partial {x}}</script>相对于

1×n1×n<script type="math/tex" id="MathJax-Element-57">1\times n</script>行向量

xTxT<script type="math/tex" id="MathJax-Element-58">x^T</script>的偏导数，得到梯度的梯度即Hessian矩阵。

二局部极小点的条件
根据定义确定某个点x∗<script type="math/tex" id="MathJax-Element-59">x_*</script>是否为目标函数的局部极小点，需要将目标函数在该点的取值与函数在该点领域里所有点的取值进行比较。这显然是不实际的做法。然而，如果f(x)是二次连续可微分的话，直接通过检验梯度∇xf(x∗)<script type="math/tex" id="MathJax-Element-60">\nabla _xf(x_*)</script>和Hessian矩阵∇2xf(x∗)<script type="math/tex" id="MathJax-Element-61">\nabla _x^2f(x_*)</script>, 即可判断点x∗<script type="math/tex" id="MathJax-Element-62">x_*</script>是否为局部极小点（甚至是严格局部极小点）。
若(Δx)TΔx<script type="math/tex" id="MathJax-Element-63">(\Delta x)^T\Delta x</script>很小，即函数f(x)的二阶Taylor级数展开为：

f (x + Δ x) = f (x) + (Δ x) T \nabla x f (x) + 1 2 (Δ x) T \nabla 2 x f (x) Δ x

∇2xf(x)∇x2f(x)<script type="math/tex" id="MathJax-Element-65">\nabla_x^2f(x)</script>在

x∗x∗<script type="math/tex" id="MathJax-Element-66">x_*</script>的开邻域内连续，并且

\nabla x f (x *) = 0, \nabla 2 x f (x *) > 0

x∗x∗<script type="math/tex" id="MathJax-Element-68">x_*</script>是函数f(x)的严格局部极小点。式中

∇2xf(x∗)>0∇x2f(x∗)>0<script type="math/tex" id="MathJax-Element-69">\nabla_x^2f(x_*)>0</script>表示Hessian矩阵

∇2xf(x∗)∇x2f(x∗)<script type="math/tex" id="MathJax-Element-70">\nabla_x^2f(x_*)</script>正定。（具体即

(Δx)T∇2xf(x)Δx>0(Δx)T∇x2f(x)Δx>0<script type="math/tex" id="MathJax-Element-71">(\Delta x)^T\nabla_x^2f(x)\Delta x>0</script>）
证明：由函数f(x)的二阶Taylor级数展开

f(x∗+Δx)=f(x∗)+(Δx)T∇xf(x∗)+12(Δx)T∇2xf(x∗)Δxf(x∗+Δx)=f(x∗)+(Δx)T∇xf(x∗)+12(Δx)T∇x2f(x∗)Δx<script type="math/tex" id="MathJax-Element-72">f(x_*+\Delta x)=f(x_*)+(\Delta x)^T\nabla_xf(x_*)+{1\over 2}(\Delta x)^T\nabla_x^2f(x_*)\Delta x</script>，且

∇xf(x∗)=0, (Δx)T∇2xf(x∗)Δx>0∇xf(x∗)=0, (Δx)T∇x2f(x∗)Δx>0<script type="math/tex" id="MathJax-Element-73">\nabla_xf(x_*)=0, \ (\Delta x)^T\nabla_x^2f(x_*)\Delta x>0</script>可得：

f(x∗+Δx)>f(x∗)f(x∗+Δx)>f(x∗)<script type="math/tex" id="MathJax-Element-74">f(x_*+\Delta x)>f(x_*)</script>，所以

x∗x∗<script type="math/tex" id="MathJax-Element-75">x_*</script>是函数f(x)的严格局部极小点。
应当注意的是，该二阶充分条件并不是必要条件：有的点

x∗x∗<script type="math/tex" id="MathJax-Element-76">x_*</script>可能是函数f(x)的严格局部极小点，但是在该点的Hessian矩阵却不是正定的。例如，观察知，点

x=0x=0<script type="math/tex" id="MathJax-Element-77">x=0</script>是函数

f(x)=(xTx)2f(x)=(xTx)2<script type="math/tex" id="MathJax-Element-78">f(x)=(x^Tx)^2</script>的严格局部极小点，但是Hessian矩阵

\partial 2 f ( x ) \partial x \partial x T = \partial 2 \partial x \partial x T (x T x) 2 = 12 x T x

x=0x=0<script type="math/tex" id="MathJax-Element-80">x=0</script>处为零矩阵，不是正定矩阵。

定理：凸函数f(x)的任何局部极小点x∗<script type="math/tex" id="MathJax-Element-81">x_*</script>都是该函数的一个全局极小点。
证明：假设x∗<script type="math/tex" id="MathJax-Element-82">x_*</script>是局部极小点，但不是一个全局极小点。于是，可以求出一点z∈R<script type="math/tex" id="MathJax-Element-83">z\in R</script>满足f(z)<f(x∗)<script type="math/tex" id="MathJax-Element-84">f(z)