拉普拉斯近似

NeverMore_7

9666人浏览 · 2017-08-26 17:18:52

NeverMore_7 · 2017-08-26 17:18:52 发布

问题背景

很多时候，无法确定一个概率分布的具体密度函数，因而在对这种分布进行后续操作（例如，作为贝叶斯学派求后验概率）时难度很大，无法进行。这时候则需要对这种无法精确知道分布函数的概率进行近似处理成已知的概率分布，从而方便计算或操作。拉普拉斯近似便是一种简单且广泛应用的近似方法，并且是很多采样方法的基础思想。

拉普拉斯近似

该方法的目的是找到一组定义在连续变量变量上的高斯近似，假设任一单一连续变量z<script type="math/tex" id="MathJax-Element-17883">z</script>，假设分布p(z)<script type="math/tex" id="MathJax-Element-17884">p(z)</script>的定义为：

p (z) = 1 Z f (z)

Z<script type="math/tex" id="MathJax-Element-17886">Z</script>是归一化系数，为

Z=∫f(z)dz<script type="math/tex" id="MathJax-Element-17887">Z=\int f(z)dz</script>（联系

softmax<script type="math/tex" id="MathJax-Element-17888">softmax</script>），

Z<script type="math/tex" id="MathJax-Element-17889">Z</script>是未知的。拉普拉斯方法的目的是寻找一个高斯分布

q(z)<script type="math/tex" id="MathJax-Element-17890">q(z)</script>来近似

p(z)<script type="math/tex" id="MathJax-Element-17891">p(z)</script>，它的中心位于

q(z)<script type="math/tex" id="MathJax-Element-17892">q(z)</script>的众数位置，即寻找一个点

z0<script type="math/tex" id="MathJax-Element-17893">z_{0}</script>使得

p′(z0)=0<script type="math/tex" id="MathJax-Element-17894">p^{'}(z_0)^=0</script>，也等价于：

d f ( z ) d z | z = z 0 = 0

lnf(z)<script type="math/tex" id="MathJax-Element-17896">lnf(z)</script>进行泰勒展开有：

l n f (z) = l n f (z 0) - 1 2 A (z - z 0) 2 + R n

A = - d 2 d z 2 l n f (z) | z = z 0

Rn<script type="math/tex" id="MathJax-Element-17899">R_n</script>，并在两边同时取指数有：

f (z) = f (z 0) e x p {- A 2 (z - z 0) 2}

q(z)<script type="math/tex" id="MathJax-Element-17901">q(z)</script>：

q (z) = (A 2 π) 1 2 e x p {- A 2 (z - z 0) 2}

p(z)<script type="math/tex" id="MathJax-Element-17903">p(z)</script>的归一化系数

Z<script type="math/tex" id="MathJax-Element-17904">Z</script>无关，（2）

A>0<script type="math/tex" id="MathJax-Element-17905">A>0</script>时近似才有定义。也就是说

z=z0<script type="math/tex" id="MathJax-Element-17906">z=z_0</script>处

p(z0)<script type="math/tex" id="MathJax-Element-17907">p(z_0)</script>具有波峰，对应

f(z0)<script type="math/tex" id="MathJax-Element-17908">f(z_0)</script>局部最大值，并且

f(z0)<script type="math/tex" id="MathJax-Element-17909">f(z_0)</script>的二阶导数小于0。

多维近似

将单变量的拉普拉斯近似进行推广，去近似M<script type="math/tex" id="MathJax-Element-17910">M</script>维空间上z<script type="math/tex" id="MathJax-Element-17911">\mathbf z</script>的概率分布p(z)=f(z)Z<script type="math/tex" id="MathJax-Element-17912">p(\mathbf z)={f(\mathbf z) \over \mathbf Z}</script>，这里z<script type="math/tex" id="MathJax-Element-17913">\mathbf z</script>和Z<script type="math/tex" id="MathJax-Element-17914">\mathbf Z</script>是向量，同理在驻点z0<script type="math/tex" id="MathJax-Element-17915">\mathbf z_0</script>有：

l n f (z) = l n f (z 0) - 1 2 (z - z 0) T A (z - z 0)

A<script type="math/tex" id="MathJax-Element-17917">\mathbf A</script>是

M∗M<script type="math/tex" id="MathJax-Element-17918">M*M</script>的

Hessian<script type="math/tex" id="MathJax-Element-17919">Hessian</script>矩阵，定义为：

A = - \nabla \nabla l n f (z) | z = z 0

∇<script type="math/tex" id="MathJax-Element-17921">\nabla</script>为梯度算子，同理，两边取指数有：

f (z) = f (z 0) e x p {- 1 2 (z - z 0) T A (z - z 0)}

q (z) = | A | 1 2 2 π M 2 e x p {- 1 2 (z - z 0) T A (z - z 0)} = N (z | z 0, A - 1)

A<script type="math/tex" id="MathJax-Element-17924">\mathbf A</script>需要是正定的。

归一化系数的近似

前面说到在进行拉普拉斯近似的时候，归一化系数Z<script type="math/tex" id="MathJax-Element-17925">Z</script>是不需要知道的，但在某些时候需要用到Z<script type="math/tex" id="MathJax-Element-17926">Z</script>，我们同样可以都它进行近似。因为：

Z = \int f (z) d z

f(z)<script type="math/tex" id="MathJax-Element-17928">f(\mathbf z)</script>的泰勒展开，可得：

Z = f (z 0) \int e x p {- 1 2} (z - z 0) T A (z - z 0) d z

Z = f (z 0) 2 π M 2 A 1 2

总结

拉普拉斯近似只需要寻找到众数z0<script type="math/tex" id="MathJax-Element-17931">\mathbf z_0</script>，然后该点处的黑塞矩阵，z0<script type="math/tex" id="MathJax-Element-17932">\mathbf z_0</script>可以用优化算法得到，但往往在实际中，会存在多峰情况的分布，那么可以对不同的波峰进行拉普拉斯近似。在应⽤拉普拉斯⽅法时，真实概率分布的归⼀化常数Z<script type="math/tex" id="MathJax-Element-17933">\mathbf Z</script>不必事先知道。根据中⼼极限定理，我们可以预见模型的后验概率会随着观测数据点的增多⽽越来越近似于⾼斯分布，因此我们可以预见在数据点相对较多的情况下，拉普拉斯近似会更有⽤。