NLP——7.LDA主题模型(数学公式推导)

这篇文章看一下公式式怎么推导出来的。正经的LDA，主要有以下几个方面：一个函数：gamma函数四个分布：二项分布，多项分布，beta分布，狄利克雷分布一个概念一个理念：共轭先验与贝叶斯框架pLSA,LDA一个采样：Gibbs采样我们来看一下它是怎么推导出来的。共轭先验与共轭分布假定似然函数p(x|θ)p(x|θ)已知，问题是选取什么样的先验分布p(θ)p(θ)和后验分布p(...

少奶奶的猪

6004人浏览 · 2020-05-05 21:26:32

少奶奶的猪 · 2020-05-05 21:26:32 发布

这篇文章看一下公式式怎么推导出来的。

正经的LDA，主要有以下几个方面：

一个函数：gamma函数
四个分布：二项分布，多项分布，beta分布，狄利克雷分布
一个概念一个理念：共轭先验与贝叶斯框架
pLSA,LDA
一个采样：Gibbs采样

我们来看一下它是怎么推导出来的。

共轭先验与共轭分布

在这里插入图片描述
假定似然函数 $p (x ∣ θ)$ 已知，问题是选取什么样的先验分布 $p (θ)$ 和后验分布 $p (θ ∣ x)$ ，使得他们具有相同的数学形式（参数可以不一样）。如果先验分布和后验分布具有相同的数学形式，则称他们为共轭分布，且先验分布为似然函数的共轭先验分布。

举个例子就是
$先验分布：p_先=ν^a(1−ν)^b$
$后验分布：p_后=ν^m(1−ν)^n$
这就是具有相同的数学形式，但参数不一样的情况。

gamma函数

对于整数而言：
$Γ (n) = (n - 1)!$
对于实数：
$Γ(x)=∫^∞_0t^{x−1e^{−t}}dt$
这里写图片描述

二项分布

二项分布是由n个独立的是、非重复实验中成功次数的离散概率分布其中每次成功的概率为p，相当于你去求婚，每次求婚都有两种结果，成功或失败，如果求婚一次，则称为伯努利分布，如果求婚n次的话（有点略倒霉呀！），则称为二项分布，记为：X ~ B(n,p),它的概率密度函数为：
$p(X=k)=C^k_np^k(1−p)^{n−p}=\frac{n!}{k!(n−k)!}p^k(1−p)^{n−p}$

分布如图
在这里插入图片描述

多项式分布（multinomial distribution）

多项式就是二项分布在高维情况下的推广，把求婚的例子改成抛骰子就OK了。

在这里插入图片描述

如果用骰子的例子，k=6, $n_i$ 表示出现第i点的次数 $i∈{1,2,3,4,5,6}i∈{1,2,3,4,5,6}）$ ； $p_i$ 表示出现第i点的概率。

beta分布

beta是指一组定义在（0，1）之间的连续概率分布，记为 $X B e (α, β)$
在这里插入图片描述

它的概率密度函数和累积分布函数为：
在这里插入图片描述

狄利克雷分布

事实上，它是Beta函数在高维空间上的推广，
这里写图片描述

其中：
这里写图片描述

对于三维的情况下，将它的概率密度函数取对数，绘制它的分布图像如下：
在这里插入图片描述
上图中，取K=3，也就是有两个独立参数x1,x2，分别对应图中的两个坐标轴，第三个参数始终满足 $x 3 = 1 - x 1 - x 2$ 且 $α 1 = α 2 = α 3 = α$ ，图中反映的是参数 $α$ 从 $α = (0.3, 0.3, 0.3)$ 变化到 $(2.0, 2.0, 2.0)$ 时的概率对数值的变化情况。

几个主题模型

1.生成模型unigram model

对于已经分好词的文档 $d=(w_1,w_2,w_3,…,w_N)$ ,用 $p(w_n)$ 表示词 $w_n$ 的先验概率，则生成文档dd的概率为：
$p(d)=∏_{n=1}^Np(w_n)$

这个是最简单的方法，就是把文章中每个单词出现的概率是多少乘起来，就等于这篇文档的出现的概率。

2.Mixture of unigrams model

这个模型的生成过程是先给某个文档生成主题，再根据主题生成文档，该文档中的每个词都来源于同一主题。

举个例子，假如有k个主题：z1,z2,z3,…,zkz1,z2,z3,…,zk,那生成文档的概率为：
$p(d)=p(z_1)∏_{i=1}^Np(w_i|z_1)+p(z_2)∏_{i=1}^Np(w_i|z_2)⋯+p(z_k)∏_{i=1}^Np(w_i|z_k)$

它的含义就是这篇文档属于某一主题 $t$ 的概率乘以这篇文档中的每一个单词出现在该主题 $t$ 下的概率的连乘。
在这里插入图片描述

与上一个模型相比，这个模型的主要改进是使用了Topic作为中间量。

这两个模型被我们称之为生成模型，扮演的角色相当于前面的似然函数likelihood.

3.PLSA

假设有三个主题，分别为教育，经济，交通，PLSA就像扔骰子一样，第一次得到文档到主题的概率分布： $P (t ∣ d)$ ，第二次呢，就得到主题都单词的分布： $p (w ∣ t)$ ,假设得到的主题是经济，那就是 $p (金融 ∣ 经济)$ ，最后把这两个概率相乘，就得到了文档到单词的分布： $p (单词 ∣ 文档)$
在这里插入图片描述

我们用公式表示出来就是： $根据文档→单词的信息：p(w_j|d_i)$ 训练出
$文档→主题：p(z_k|d_i)$

$主题→单词：p(w_j|z_k)$

得到：
$p(w_j|d_i)=∑_{k=1}^Kp(w_j|z_k)p(z_k|d_i)$
然后得到文档中每个词的生成概率：
$p(d_i,w_i)=p(d_i)p(w_j|d_i)=p(d_i)∑_{k=1}^Kp(w_j|z_k)p(z_k|d_i)$
其中， $p (d i)$ 可以事先计算出来，但是 $p(w_j|z_k),p(z_k|d_i)$ 是未知的，这就是我们要估计的参数值，

$θ=(p(w_j|z_k)p(z_k|d_i))$
最大化就是我们的优化目标。

4.LDA

LDA其实就是在PLSA上加了一层贝叶斯框架，为了更好的理解LDA，我们把LDA和PLSA比较一下：
对于PLSA：

按照概率 $p(d_i)$ 选择一篇文档 $d_i$
选定文档 $d_i$ 之后，确定该文档的主题；
从主题分布中按照概率 $p(z_k|d_i)$ 选择隐含的主题的类别 $z_k$ ;
选择主题后，确定该主题下词分布
从词分布中按照概率 $p(w_j|z_k)$ 选择一个词 $w_j$

对于LDA：

按照先验概率 $p(d_i)$ 选择一篇文档 $d_i$
从狄利克雷分布 $α$ 中取样生成文档 $d_i$ 的主题分布 $θ_i$ ,也就是主题分布 $θ_i$ 由超参数为 $α$ 的狄利克雷分布构成
从主题的多项式分布 $θ_i$ 取样生成文档 $d_i$ 的第 $j$ 个词的主题 $z_{i,j}$
从狄利克雷分布ββ中取样生成主题 $z_{i,j}$ 对应的词语分布 $z_{i,j}$ ,也就是说词语分布由参数为 $β$ 的狄利克雷分布生成
从词语的多项式分布 $ϕ_{z_{i,j}}$ 采样最终生成词语 $w_{i,j}$

用一分钟解释就是LDA把PLSA中按照固定概率取的参数都换成了某一固定的概率分布，它们的本质区别是估计未知参数所采用的思想不同，PLSA采用的是频率派的思维:参数 $θ$ 虽然未知，但它是一个确定的值；LDA采用的是贝叶斯思维：认为待估计参数为随机变量，且服从一定的概率分布。

详细公式解释：https://blog.csdn.net/v_july_v/article/details/41209515

参考
七月算法课课件

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

卡萨帝AI之眼跑出加速度：22大升级让无人家务更进一步

2048 AI社区

光通信与视频编码前沿技术综述：从超大容量传输到实时神经网络编码

多芯光纤与实时神经网络编码分别代表了通信传输与视频压缩两大领域的前沿方向。2.5Pb/s的光传输记录展示了物理层容量的巨大潜力，而MobileNVC则证明了AI驱动的视频编码在移动设备上的可行性。这两大技术方向的持续突破，将为AI大模型时代的海量数据交互和超高清视频应用提供坚实的底层支撑。需要指出的是，从实验室纪录到大规模商用仍需克服工程化、标准化和成本控制等多重挑战。对于技术应用者而言，理性看待