统计学习方法(李航) 第四章 贝叶斯
笔记目录:统计学习方法(李航) 第一章 绪论统计学习方法(李航)第二章 感知机统计学习方法(李航)第三章 k近邻贝叶斯定理:已知: 存在 KKK 类 c1,c2,...,cKc_1,c_2,...,c_Kc1,c2,...,cK, 给定一个新的实例x=(x(1),x(2),...,x(n))x=(x^{(1)},x^{(2)},...,x^{(n)})x=(x(1),x(2),...,x(n
笔记目录:
统计学习方法(李航) 第一章 绪论
统计学习方法(李航)第二章 感知机
统计学习方法(李航)第三章 k近邻
第一节 贝叶斯定理
贝叶斯定理:
已知: 存在 K K K 类 c 1 , c 2 , . . . , c K c_1,c_2,...,c_K c1,c2,...,cK, 给定一个新的实例 x = ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) ) x=(x^{(1)},x^{(2)},...,x^{(n)}) x=(x(1),x(2),...,x(n))
问: 该实例属于 c i c_i ci类的概率是多少?
P ( Y = c i ∣ X = x ) = P ( X = x ∣ Y = c i ) ∗ P ( Y = c i ) P ( X = x ) = P ( X = x ∣ Y = c i ) ∗ P ( Y = c i ) ∑ i = 1 K P ( X = x ∣ Y = c i ) ∗ P ( Y = c i ) P(Y=c_i|X=x) = \frac{P(X=x|Y=c_i)*P(Y=c_i)}{P(X=x)}\\=\frac{P(X=x|Y=c_i)*P(Y=c_i)}{\sum_{i=1}^{K}P(X=x|Y=c_i)*P(Y=c_i)} P(Y=ci∣X=x)=P(X=x)P(X=x∣Y=ci)∗P(Y=ci)=∑i=1KP(X=x∣Y=ci)∗P(Y=ci)P(X=x∣Y=ci)∗P(Y=ci)
之后求解该实例属于每个类的概率,取最大的类别即为预测结果
若假设实例特征之间相互独立, 则
P ( X = x ∣ Y = c i ) = ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c i ) P(X=x|Y=c_i) = \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i) P(X=x∣Y=ci)=j=1∏nP(X(j)=x(j)∣Y=ci)
也就是每个特征的预测概率之积, 则原公式可以进一步化为:
P ( Y = c i ∣ X = x ) = P ( Y = c i ) ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c i ) ∑ i = 1 K P ( Y = c i ) ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c i ) P(Y=c_i|X=x)=\frac{P(Y=c_i) \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i)}{\sum_{i=1}^{K}P(Y=c_i) \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i) } P(Y=ci∣X=x)=∑i=1KP(Y=ci)∏j=1nP(X(j)=x(j)∣Y=ci)P(Y=ci)∏j=1nP(X(j)=x(j)∣Y=ci)
这就是 朴素贝叶斯定理
第二节 朴素贝叶斯
1. 基本方法
训练数据集:
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T={(x1,y1),(x2,y2),...,(xN,yN)}
输入: X ⊂ R n , x ∈ X X \subset R^n, x \in X X⊂Rn,x∈X
输出: Y = { c 1 , c 2 , . . . , c K } , y ∈ Y Y=\{c_1,c_2,...,c_K\}, y \in Y Y={c1,c2,...,cK},y∈Y
这是一种生成方法:, 即学习联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)
-
先验概率分布:
P ( Y = c i ) , i = 1 , 2 , . . . , K P(Y=c_i), i=1,2,...,K P(Y=ci),i=1,2,...,K
-
条件概率分布:
P ( X = x ∣ Y = c i ) = P ( X ( 1 ) = x ( 1 ) , . . . , X ( n ) = x ( n ) ∣ Y = c i ) P(X=x|Y=c_i)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_i) P(X=x∣Y=ci)=P(X(1)=x(1),...,X(n)=x(n)∣Y=ci)
- 联合概率分布:
P ( X , Y ) = P ( X = x ∣ Y = c i ) P ( Y = c i ) , i = 1 , 2 , . . . , K P(X,Y) = P(X=x|Y=c_i)P(Y=c_i), i=1,2,...,K P(X,Y)=P(X=x∣Y=ci)P(Y=ci),i=1,2,...,K
2. 朴素贝叶斯分类
为什么要使用朴素贝叶斯?
如果不假设特征条件独立,需直接计算联合概率 P ( X 1 , X 2 , … , X n ∣ C ) P(X1,X2,…,Xn∣C) P(X1,X2,…,Xn∣C), 这要求:
- 考虑所有特征组合的概率
- 对于 n 个二值特征(例如“是/否”),每种类别下有 2 n 2^n 2n 种可能的特征组合
- 若特征取值不是二值,而是 m 个离散值,则组合数为 m n m^n mn
而朴素贝叶斯假设所有特征条件独立,即给定类别 C,特征 X 1 , X 2 , … , X n X_1, X_2, \ldots, X_n X1,X2,…,Xn 相互独立。因此,联合概率可以分解为: P ( X 1 , X 2 , … , X n ∣ C ) = P ( X 1 ∣ C ) ⋅ P ( X 2 ∣ C ) ⋅ … ⋅ P ( X n ∣ C ) P(X_1, X_2, \ldots, X_n | C) = P(X_1 | C) \cdot P(X_2 | C) \cdot \ldots \cdot P(X_n | C) P(X1,X2,…,Xn∣C)=P(X1∣C)⋅P(X2∣C)⋅…⋅P(Xn∣C)
这使得计算复杂度为 O ( n ⋅ k ) O(n \cdot k) O(n⋅k),其中 n 是特征数,k 是类别数,只需存储和计算每个特征在每个类别下的条件概率
- 后验概率
P ( Y = c i ∣ X = x ) = P ( Y = c i ) ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c i ) ∑ i = 1 K P ( Y = c i ) ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c i ) P(Y=c_i|X=x)=\frac{P(Y=c_i) \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i)}{\sum_{i=1}^{K}P(Y=c_i) \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i) } P(Y=ci∣X=x)=∑i=1KP(Y=ci)∏j=1nP(X(j)=x(j)∣Y=ci)P(Y=ci)∏j=1nP(X(j)=x(j)∣Y=ci)
- 分类
y = a r g m a x c i P ( Y = c i ) ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c i ) y=\underset{c_i}{argmax}P(Y=c_i)\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i) y=ciargmaxP(Y=ci)j=1∏nP(X(j)=x(j)∣Y=ci)
即不考虑分母(因为每个类别预测概率的分母都一样), 只考虑分子最大
3. 证明贝叶斯期望风险最小化与后验概率最大化等价
假设:
- 特征向量为 x \mathbf{x} x,类别集合为 C = { c 1 , c 2 , … , c K } \mathcal{C} = \{c_1, c_2, \ldots, c_K\} C={c1,c2,…,cK}
- 决策规则为 c ^ ( x ) \hat{c}(\mathbf{x}) c^(x),即给定 x \mathbf{x} x,选择一个类别 c ^ \hat{c} c^
- 损失函数 L ( c i , c ^ ) L(c_i, \hat{c}) L(ci,c^) 表示真实类别为 c i c_i ci,预测类别为 c ^ \hat{c} c^ 时的损失。
我们的目标是找到决策规则 c ^ ( x ) \hat{c}(\mathbf{x}) c^(x),使期望风险最小
期望风险:
给定特征 x \mathbf{x} x,选择类别 c ^ \hat{c} c^ 的 条件风险 (期望损失)为:
R ( c ^ ∣ x ) = ∑ c i ∈ C L ( c i , c ^ ) P ( c i ∣ x ) R(\hat{c} | \mathbf{x}) = \sum_{c_i \in \mathcal{C}} L(c_i, \hat{c}) P(c_i | \mathbf{x}) R(c^∣x)=ci∈C∑L(ci,c^)P(ci∣x)
其中:
- P ( c i ∣ x ) P(c_i | \mathbf{x}) P(ci∣x) 是后验概率,表示给定 x \mathbf{x} x 时类别为 c i c_i ci 的概率
- L ( c i , c ^ ) L(c_i, \hat{c}) L(ci,c^) 是损失函数
期望风险是条件风险关于 x \mathbf{x} x 的期望:
R ( c ^ ) = E x [ R ( c ^ ∣ x ) ] = ∫ R ( c ^ ∣ x ) P ( x ) d x R(\hat{c}) = \mathbb{E}_{\mathbf{x}}[R(\hat{c} | \mathbf{x})] = \int R(\hat{c} | \mathbf{x}) P(\mathbf{x}) d\mathbf{x} R(c^)=Ex[R(c^∣x)]=∫R(c^∣x)P(x)dx
目标是选择 c ^ ( x ) \hat{c}(\mathbf{x}) c^(x) ,使 R ( c ^ ∣ x ) R(\hat{c} | \mathbf{x}) R(c^∣x) 对每个 x \mathbf{x} x 最小,从而最小化总体期望风险
为简化推导,假设使用 0-1 损失函数 ,即:
L ( c i , c ^ ) = { 0 , if c ^ = c i 1 , if c ^ ≠ c i L(c_i, \hat{c}) = \begin{cases} 0, & \text{if } \hat{c} = c_i \\ 1, & \text{if } \hat{c} \neq c_i \end{cases} L(ci,c^)={0,1,if c^=ciif c^=ci
这意味着正确分类无损失,错误分类损失为1. 这种损失函数常用于分类问题
将 0-1 损失函数代入条件风险: R ( c ^ ∣ x ) = ∑ c i ∈ C L ( c i , c ^ ) P ( c i ∣ x ) R(\hat{c} | \mathbf{x}) = \sum_{c_i \in \mathcal{C}} L(c_i, \hat{c}) P(c_i | \mathbf{x}) R(c^∣x)=∑ci∈CL(ci,c^)P(ci∣x), 对于 0-1 损失:
- 当 c ^ = c i \hat{c} = c_i c^=ci, L ( c i , c ^ ) = 0 L(c_i, \hat{c}) = 0 L(ci,c^)=0,该项贡献为 0
- 当 c ^ ≠ c i \hat{c} \neq c_i c^=ci, L ( c i , c ^ ) = 1 L(c_i, \hat{c}) = 1 L(ci,c^)=1,贡献为 P ( c i ∣ x ) P(c_i | \mathbf{x}) P(ci∣x)
因此: R ( c ^ ∣ x ) = ∑ c i ≠ c ^ P ( c i ∣ x ) R(\hat{c} | \mathbf{x}) = \sum_{c_i \neq \hat{c}} P(c_i | \mathbf{x}) R(c^∣x)=∑ci=c^P(ci∣x). 注意到: ∑ c i ∈ C P ( c i ∣ x ) = 1 \sum_{c_i \in \mathcal{C}} P(c_i | \mathbf{x}) = 1 ∑ci∈CP(ci∣x)=1, 所以: ∑ c i ≠ c ^ P ( c i ∣ x ) = 1 − P ( c ^ ∣ x ) \sum_{c_i \neq \hat{c}} P(c_i | \mathbf{x}) = 1 - P(\hat{c} | \mathbf{x}) ∑ci=c^P(ci∣x)=1−P(c^∣x), 于是条件风险为: R ( c ^ ∣ x ) = 1 − P ( c ^ ∣ x ) R(\hat{c} | \mathbf{x}) = 1 - P(\hat{c} | \mathbf{x}) R(c^∣x)=1−P(c^∣x)
要使 R ( c ^ ∣ x ) R(\hat{c} | \mathbf{x}) R(c^∣x) 最小,需使: R ( c ^ ∣ x ) = 1 − P ( c ^ ∣ x ) R(\hat{c} | \mathbf{x}) = 1 - P(\hat{c} | \mathbf{x}) R(c^∣x)=1−P(c^∣x) 最小。最小化 R ( c ^ ∣ x ) R(\hat{c} | \mathbf{x}) R(c^∣x) 等价于最大化 P ( c ^ ∣ x ) P(\hat{c} | \mathbf{x}) P(c^∣x), 即: c ^ ( x ) = arg min c ^ R ( c ^ ∣ x ) = arg max c ^ P ( c ^ ∣ x ) \hat{c}(\mathbf{x}) = \arg\min_{\hat{c}} R(\hat{c} | \mathbf{x}) = \arg\max_{\hat{c}} P(\hat{c} | \mathbf{x}) c^(x)=argminc^R(c^∣x)=argmaxc^P(c^∣x).
这表明,选择使后验概率 P ( c ^ ∣ x ) P(\hat{c} | \mathbf{x}) P(c^∣x) 最大的类别 c ^ \hat{c} c^,可以最小化条件风险
由于总体期望风险 R ( c ^ ) = E x [ R ( c ^ ∣ x ) ] R(\hat{c}) = \mathbb{E}_{\mathbf{x}}[R(\hat{c} | \mathbf{x})] R(c^)=Ex[R(c^∣x)],对每个 x \mathbf{x} x 选择使 R ( c ^ ∣ x ) R(\hat{c} | \mathbf{x}) R(c^∣x) 最小的 c ^ \hat{c} c^,将使整个积分最小。因此, 对每个 x \mathbf{x} x 选择后验概率最大的类别 ,等价于最小化总体期望风险
第三节 极大似然估计方法
原理: 使似然函数达到最大的参数值
- 假设 X X X 的密度函数为 f ( W , β ) f(W,\beta) f(W,β),如果简单随机样本 X 1 , X 2 , . . . , X N ) X_1,X_2,...,X_N) X1,X2,...,XN)相互独立, 则其联合密度函数为
L ( x 1 , x 2 , . . . , x N ) = ∏ i = 1 N f ( x i , β ) L(x_1,x_2,...,x_N)=\prod_{i=1}^Nf(x_i,\beta) L(x1,x2,...,xN)=i=1∏Nf(xi,β)
- 当 ( X 1 , X 2 , . . . , X N ) (X_1,X_2,...,X_N) (X1,X2,...,XN) 取定值 ( x 1 , x 2 , . . . , x N ) (x_1,x_2,...,x_N) (x1,x2,...,xN)时, L ( x 1 , x 2 , . . . , x N ; β ) L(x_1,x_2,...,x_N;\beta) L(x1,x2,...,xN;β) 是 β \beta β 的函数, 即样本的似然函数
- β \beta β 的极大似然估计 β ^ = a r g m a x β ∈ θ L ( x 1 , x 2 , . . . , x N ; β ) \hat{\beta}=\underset{\beta \in \theta}{argmax}L(x_1,x_2,...,x_N;\beta) β^=β∈θargmaxL(x1,x2,...,xN;β)
- 记似然函数 L ( β ) = L ( x 1 , x 2 , . . . , x N ; β ) L(\beta)=L(x_1,x_2,...,x_N;\beta) L(β)=L(x1,x2,...,xN;β)
求解办法:
- 遍历法: 若参数空间比较少, 可以依次带入找到让似然函数取值最大的那个参数
- 数值计算法
- 对每个参数 β \beta β 求偏导, 求出其值
- 若无法求骗到,则可采用迭代法
第四节 朴素贝叶斯算法
训练 :
-
计算先验概率
P ( c ) = 类别 c 的样本数 总样本数 P(c) = \frac{\text{类别 } c \text{ 的样本数}}{\text{总样本数}} P(c)=总样本数类别 c 的样本数
-
计算条件概率
P ( x i ∣ c ) (一般通过频率估计) P(x_i|c) (一般通过频率估计) P(xi∣c)(一般通过频率估计)
预测 :
- 对新样本 x x x 计算每个类别的 P ( c ) ∏ i = 1 n P ( x i ∣ c ) P(c) \prod_{i=1}^n P(x_i|c) P(c)∏i=1nP(xi∣c)
- 选择最大值对应的类别
第五节 贝叶斯估计
贝叶斯估计(Bayesian Estimation)是基于贝叶斯概率理论的一种统计推断方法,用于从观测数据中估计未知参数。它结合了先验知识和观测数据,通过贝叶斯定理更新参数的概率分布。以下是其核心概念的简要介绍:
1. 贝叶斯定理
贝叶斯估计的核心是贝叶斯定理,数学表达式为:
P ( θ ∣ D ) = P ( D ∣ θ ) P ( θ ) P ( D ) P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)} P(θ∣D)=P(D)P(D∣θ)P(θ)
其中:
- θ \theta θ:待估计的参数(如均值、方差等)
- D D D:观测数据
- P ( θ ∣ D ) P(\theta|D) P(θ∣D):后验概率,表示在观测到数据 ( D ) 后,参数 θ \theta θ 的概率分布
- P ( D ∣ θ ) P(D|\theta) P(D∣θ):似然函数,表示在给定参数 θ \theta θ 下观测到数据 ( D ) 的概率
- P ( θ ) P(\theta) P(θ):先验概率,反映在观测数据之前对参数 θ \theta θ 的信念或假设
- P ( D ) P(D) P(D):证据(或边缘概率),是数据的总概率,通常作为归一化常数
2. 贝叶斯估计的步骤
-
确定先验分布 P ( θ ) P(\theta) P(θ):
- 根据领域知识或历史数据,假设参数 θ \theta θ 的初始概率分布(如正态分布、均匀分布等)
- 先验可以是信息性先验(基于强假设)或无信息先验(尽量不引入主观偏见)
-
计算似然函数 P ( D ∣ θ ) P(D|\theta) P(D∣θ):
- 根据观测数据和模型,计算在不同参数值下数据出现的概率
- 例如,若数据服从正态分布,似然函数基于正态分布的概率密度
-
计算后验分布 P ( θ ∣ D ) P(\theta|D) P(θ∣D):
- 利用贝叶斯定理,将先验和似然结合,得到参数的后验分布
- 后验分布综合了先验知识和观测数据的信息
-
参数估计:
- 从后验分布中提取点估计(如后验均值、后验中位数或众数)
- 或者提供区间估计(如可信区间,反映参数的不确定性)
3. 贝叶斯估计的特点
- 结合先验信息:与经典的频率派方法(如最大似然估计)不同,贝叶斯估计允许融入主观或客观的先验知识
- 概率分布输出:贝叶斯估计不只给出一个点估计,还提供参数的完整概率分布,适合描述不确定性
- 计算复杂性:后验分布的计算可能涉及复杂的积分,常用数值方法(如马尔可夫链蒙特卡洛MCMC)或共轭先验简化计算
- 灵活性:适用于小样本数据、复杂模型和非线性问题
4. 与频率派估计的对比
- 频率派:参数被视为固定值,估计基于数据的似然函数(如最大似然估计),不考虑先验
- 贝叶斯派:参数被视为随机变量,估计基于后验分布,结合了先验和数据
- 不确定性表达:贝叶斯方法通过后验分布直接量化不确定性,而频率派通常通过置信区间间接描述
5. 贝叶斯估计的分类应用:
先验概率的贝叶斯估计:
P λ ( Y = c k ) = ∑ i = 1 N I ( y i = = c k ) + λ N + K λ P_{\lambda}(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i==c_k)+\lambda}{N+K\lambda} Pλ(Y=ck)=N+Kλ∑i=1NI(yi==ck)+λ
条件概率的贝叶斯估计:
P λ ( X ( i ) = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( j ) = = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = = c k ) + S j λ P_{\lambda}(X^{(i)}=a_{jl}|Y=c_k) = \frac{\sum_{i=1}^{N}I(x_i^{(j)}==a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^{N}I(y_i==c_k)+S_j\lambda} Pλ(X(i)=ajl∣Y=ck)=∑i=1NI(yi==ck)+Sjλ∑i=1NI(xi(j)==ajl,yi=ck)+λ
其中 S j S_j Sj 表示特征 X ( j ) X^{(j)} X(j) 的可能取值数
这可估计在类别 Y = c k Y = c_k Y=ck 下,特征 X ( j ) X^{(j)} X(j)(第 j j j 个特征)取值 a j l a_{jl} ajl 的条件概率 P ( X ( j ) = a j l ∣ Y = c k ) P(X^{(j)} = a_{jl} | Y = c_k) P(X(j)=ajl∣Y=ck)
当 λ \lambda λ为0是, 是极大似然估计; 当 λ \lambda λ为1时, 称作 拉普拉斯平滑
这里的平滑思想是什么??
对于
P λ ( Y = c k ) = ∑ i = 1 N I ( y i = = c k ) + λ N + K λ P_{\lambda}(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i==c_k)+\lambda}{N+K\lambda} Pλ(Y=ck)=N+Kλ∑i=1NI(yi==ck)+λ
将 P λ ( Y = c k ) P_{\lambda}(Y=c_k) Pλ(Y=ck) 记为 θ k \theta_k θk, ∑ i = 1 N I ( y i = = c k ) \sum_{i=1}^{N}I(y_i==c_k) ∑i=1NI(yi==ck) 记为 N k N_k Nk, 则
θ k ( N + K λ ) = N k + λ \theta_k(N+K\lambda)=N_k+\lambda θk(N+Kλ)=Nk+λ
进一步变形为
( θ k N − N k ) + λ ( K θ k − 1 ) = 0 (\theta_kN-N_k)+\lambda(K\theta_k-1)=0 (θkN−Nk)+λ(Kθk−1)=0
这里的 ( θ k N − N k ) (\theta_kN-N_k) (θkN−Nk) 若令它为0, 则 θ k = N k N \theta_k = \frac{N_k}{N} θk=NNk, 即为 θ \theta θ 的极大似然估计;
若令 λ ( K θ k − 1 ) \lambda(K\theta_k-1) λ(Kθk−1) 为0, 则 θ = 1 K \theta=\frac{1}{K} θ=K1, 为 θ \theta θ 的先验估计
平滑公式不仅解决零概率问题,还通过 λ \lambda λ 引入了先验信息。 λ \lambda λ 可以看作是对先验分布的假设:
- 若 λ \lambda λ 小,先验影响小,估计更接近 MLE
- 若 λ \lambda λ 大,先验影响大,估计更接近先验估计
第六节 贝叶斯估计与频率学派
例题 1:均匀分布先验下的贝叶斯估计
- Y Y Y 分为两类 c 1 c_1 c1 和 c 2 c_2 c2,先验参考概率为 θ \theta θ,假设参考概率服从 [ 0 , 1 ] [0,1] [0,1] 上的均匀分布 U ( 0 , 1 ) U(0,1) U(0,1),表示 θ \theta θ 的先验为常数
- 参考概率 θ \theta θ 的先验概率密度:
f ( θ ) = 1 f(\theta) = 1 f(θ)=1 - 已知 θ \theta θ 时 Y Y Y 的条件概率模型:
g ( Y ∣ θ ) = { θ , Y = c 1 1 − θ , Y = c 2 g(Y|\theta) = \begin{cases} \theta, & Y = c_1 \\ 1-\theta, & Y = c_2 \end{cases} g(Y∣θ)={θ,1−θ,Y=c1Y=c2 - 求后验概率 P ( θ ∣ Y ) P(\theta|Y) P(θ∣Y)
解:
根据贝叶斯定理:
P ( θ ∣ Y ) = P ( Y ∣ θ ) P ( θ ) P ( Y ) P(\theta|Y) = \frac{P(Y|\theta)P(\theta)}{P(Y)} P(θ∣Y)=P(Y)P(Y∣θ)P(θ)
由于 θ ∼ U ( 0 , 1 ) \theta \sim U(0,1) θ∼U(0,1),其概率密度为:
P ( θ ) = f ( θ ) = 1 , θ ∈ [ 0 , 1 ] P(\theta) = f(\theta) = 1, \quad \theta \in [0,1] P(θ)=f(θ)=1,θ∈[0,1]
根据条件概率模型:
- 若 Y = c 1 Y = c_1 Y=c1,则 P ( Y = c 1 ∣ θ ) = θ P(Y=c_1|\theta) = \theta P(Y=c1∣θ)=θ;
- 若 Y = c 2 Y = c_2 Y=c2,则 P ( Y = c 2 ∣ θ ) = 1 − θ P(Y=c_2|\theta) = 1-\theta P(Y=c2∣θ)=1−θ。
其中 P ( Y ) P(Y) P(Y) 是 θ \theta θ 的边缘分布:
P ( Y ) = ∫ 0 1 P ( Y ∣ θ ) P ( θ ) d θ P(Y) = \int_0^1 P(Y|\theta)P(\theta) d\theta P(Y)=∫01P(Y∣θ)P(θ)dθ
- 当 Y = c 1 Y = c_1 Y=c1:
P ( Y = c 1 ) = ∫ 0 1 θ ⋅ 1 d θ = [ θ 2 2 ] 0 1 = 1 2 P(Y=c_1) = \int_0^1 \theta \cdot 1 d\theta = \left[\frac{\theta^2}{2}\right]_0^1 = \frac{1}{2} P(Y=c1)=∫01θ⋅1dθ=[2θ2]01=21 - 当 Y = c 2 Y = c_2 Y=c2:
P ( Y = c 2 ) = ∫ 0 1 ( 1 − θ ) ⋅ 1 d θ = [ θ − θ 2 2 ] 0 1 = 1 − 1 2 = 1 2 P(Y=c_2) = \int_0^1 (1-\theta) \cdot 1 d\theta = \left[\theta - \frac{\theta^2}{2}\right]_0^1 = 1 - \frac{1}{2} = \frac{1}{2} P(Y=c2)=∫01(1−θ)⋅1dθ=[θ−2θ2]01=1−21=21
则后验概率:
- 当 Y = c 1 Y = c_1 Y=c1:
P ( θ ∣ Y = c 1 ) = P ( Y = c 1 ∣ θ ) P ( θ ) P ( Y = c 1 ) = θ ⋅ 1 1 2 = 2 θ P(\theta|Y=c_1) = \frac{P(Y=c_1|\theta)P(\theta)}{P(Y=c_1)} = \frac{\theta \cdot 1}{\frac{1}{2}} = 2\theta P(θ∣Y=c1)=P(Y=c1)P(Y=c1∣θ)P(θ)=21θ⋅1=2θ - 当 Y = c 2 Y = c_2 Y=c2:
P ( θ ∣ Y = c 2 ) = P ( Y = c 2 ∣ θ ) P ( θ ) P ( Y = c 2 ) = ( 1 − θ ) ⋅ 1 1 2 = 2 ( 1 − θ ) P(\theta|Y=c_2) = \frac{P(Y=c_2|\theta)P(\theta)}{P(Y=c_2)} = \frac{(1-\theta) \cdot 1}{\frac{1}{2}} = 2(1-\theta) P(θ∣Y=c2)=P(Y=c2)P(Y=c2∣θ)P(θ)=21(1−θ)⋅1=2(1−θ)
贝叶斯估计:
- 当 Y = c 1 Y = c_1 Y=c1,后验密度 P ( θ ∣ Y = c 1 ) = 2 θ P(\theta|Y=c_1) = 2\theta P(θ∣Y=c1)=2θ,在 θ ∈ [ 0 , 1 ] \theta \in [0,1] θ∈[0,1] 上单调递增,最大值在 θ = 1 \theta = 1 θ=1,故 MAP 估计为 θ ^ = 1 \hat{\theta} = 1 θ^=1
- 当 Y = c 2 Y = c_2 Y=c2,后验密度 P ( θ ∣ Y = c 2 ) = 2 ( 1 − θ ) P(\theta|Y=c_2) = 2(1-\theta) P(θ∣Y=c2)=2(1−θ),单调递减,最大值在 θ = 0 \theta = 0 θ=0,故 MAP 估计为 θ ^ = 0 \hat{\theta} = 0 θ^=0
频率学派估计 θ \theta θ 通常用样本比例:
- 假设观测到 n n n 个样本,其中 n 1 n_1 n1 个为 c 1 c_1 c1,频率估计为 θ ^ = n 1 n \hat{\theta} = \frac{n_1}{n} θ^=nn1。
- 在此例中,仅观测 1 个样本:
- 若 Y = c 1 Y = c_1 Y=c1,频率估计 θ ^ = 1 \hat{\theta} = 1 θ^=1;
- 若 Y = c 2 Y = c_2 Y=c2,频率估计 θ ^ = 0 \hat{\theta} = 0 θ^=0。
故有 结论 :均匀分布先验下的贝叶斯估计(MAP)与频率学派估计一致
例题2: Beta 分布先验下的贝叶斯估计
-
Y Y Y 分为两类 c 1 c_1 c1 和 c 2 c_2 c2,先验参考概率为 θ \theta θ,假设参考概率服从 Beta 分布 B e ( α , β ) Be(\alpha, \beta) Be(α,β),表示 θ \theta θ 的先验为 Beta 分布
-
参考概率 θ \theta θ 的先验概率密度:
f ( θ ; α , β ) = 1 B ( α , β ) θ α − 1 ( 1 − θ ) β − 1 f(\theta; \alpha, \beta) = \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1} f(θ;α,β)=B(α,β)1θα−1(1−θ)β−1
其中 B ( α , β ) = ∫ 0 1 t α − 1 ( 1 − t ) β − 1 d t B(\alpha, \beta) = \int_0^1 t^{\alpha-1} (1-t)^{\beta-1} dt B(α,β)=∫01tα−1(1−t)β−1dt 是 Beta 函数
-
已知 θ \theta θ 时 Y Y Y 的条件概率模型:
g ( Y ∣ θ ) = { θ , Y = c 1 1 − θ , Y = c 2 g(Y|\theta) = \begin{cases} \theta, & Y = c_1 \\ 1-\theta, & Y = c_2 \end{cases} g(Y∣θ)={θ,1−θ,Y=c1Y=c2
-
求后验概率 P ( θ ∣ Y ) P(\theta|Y) P(θ∣Y)
解:
后验概率公式:
P ( θ ∣ Y ) = P ( Y ∣ θ ) P ( θ ) P ( Y ) P(\theta|Y) = \frac{P(Y|\theta)P(\theta)}{P(Y)} P(θ∣Y)=P(Y)P(Y∣θ)P(θ)
先验为 Beta 分布:
P ( θ ) = f ( θ ; α , β ) = 1 B ( α , β ) θ α − 1 ( 1 − θ ) β − 1 P(\theta) = f(\theta; \alpha, \beta) = \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1} P(θ)=f(θ;α,β)=B(α,β)1θα−1(1−θ)β−1
- 若 Y = c 1 Y = c_1 Y=c1, P ( Y = c 1 ∣ θ ) = θ P(Y=c_1|\theta) = \theta P(Y=c1∣θ)=θ;
- 若 Y = c 2 Y = c_2 Y=c2, P ( Y = c 2 ∣ θ ) = 1 − θ P(Y=c_2|\theta) = 1-\theta P(Y=c2∣θ)=1−θ。
P(Y)公式:
P ( Y ) = ∫ 0 1 P ( Y ∣ θ ) P ( θ ) d θ P(Y) = \int_0^1 P(Y|\theta)P(\theta) d\theta P(Y)=∫01P(Y∣θ)P(θ)dθ
-
当 Y = c 1 Y = c_1 Y=c1:
P ( Y = c 1 ) = ∫ 0 1 θ ⋅ 1 B ( α , β ) θ α − 1 ( 1 − θ ) β − 1 d θ = 1 B ( α , β ) ∫ 0 1 θ α ( 1 − θ ) β − 1 d θ P(Y=c_1) = \int_0^1 \theta \cdot \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1} d\theta = \frac{1}{B(\alpha, \beta)} \int_0^1 \theta^{\alpha} (1-\theta)^{\beta-1} d\theta P(Y=c1)=∫01θ⋅B(α,β)1θα−1(1−θ)β−1dθ=B(α,β)1∫01θα(1−θ)β−1dθ
积分项是 Beta 分布的形式:
∫ 0 1 θ α ( 1 − θ ) β − 1 d θ = B ( α + 1 , β ) \int_0^1 \theta^{\alpha} (1-\theta)^{\beta-1} d\theta = B(\alpha+1, \beta) ∫01θα(1−θ)β−1dθ=B(α+1,β)利用 Beta 函数性质: B ( a , b ) = Γ ( a ) Γ ( b ) Γ ( a + b ) B(a, b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)} B(a,b)=Γ(a+b)Γ(a)Γ(b),且 Γ ( a + 1 ) = a Γ ( a ) \Gamma(a+1) = a\Gamma(a) Γ(a+1)=aΓ(a),可得:
B ( α + 1 , β ) = Γ ( α + 1 ) Γ ( β ) Γ ( α + β + 1 ) = α Γ ( α ) Γ ( β ) ( α + β ) Γ ( α + β ) = α α + β B ( α , β ) B(\alpha+1, \beta) = \frac{\Gamma(\alpha+1)\Gamma(\beta)}{\Gamma(\alpha+\beta+1)} = \frac{\alpha \Gamma(\alpha) \Gamma(\beta)}{(\alpha+\beta) \Gamma(\alpha+\beta)} = \frac{\alpha}{\alpha+\beta} B(\alpha, \beta) B(α+1,β)=Γ(α+β+1)Γ(α+1)Γ(β)=(α+β)Γ(α+β)αΓ(α)Γ(β)=α+βαB(α,β)因此:
P ( Y = c 1 ) = 1 B ( α , β ) ⋅ B ( α + 1 , β ) = α α + β P(Y=c_1) = \frac{1}{B(\alpha, \beta)} \cdot B(\alpha+1, \beta) = \frac{\alpha}{\alpha+\beta} P(Y=c1)=B(α,β)1⋅B(α+1,β)=α+βα -
当 Y = c 2 Y = c_2 Y=c2:
P ( Y = c 2 ) = ∫ 0 1 ( 1 − θ ) ⋅ 1 B ( α , β ) θ α − 1 ( 1 − θ ) β − 1 d θ = 1 B ( α , β ) ∫ 0 1 θ α − 1 ( 1 − θ ) β d θ P(Y=c_2) = \int_0^1 (1-\theta) \cdot \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1} d\theta = \frac{1}{B(\alpha, \beta)} \int_0^1 \theta^{\alpha-1} (1-\theta)^{\beta} d\theta P(Y=c2)=∫01(1−θ)⋅B(α,β)1θα−1(1−θ)β−1dθ=B(α,β)1∫01θα−1(1−θ)βdθ
积分项为:
∫ 0 1 θ α − 1 ( 1 − θ ) β d θ = B ( α , β + 1 ) = β α + β B ( α , β ) \int_0^1 \theta^{\alpha-1} (1-\theta)^{\beta} d\theta = B(\alpha, \beta+1) = \frac{\beta}{\alpha+\beta} B(\alpha, \beta) ∫01θα−1(1−θ)βdθ=B(α,β+1)=α+ββB(α,β)因此:
P ( Y = c 2 ) = 1 B ( α , β ) ⋅ B ( α , β + 1 ) = β α + β P(Y=c_2) = \frac{1}{B(\alpha, \beta)} \cdot B(\alpha, \beta+1) = \frac{\beta}{\alpha+\beta} P(Y=c2)=B(α,β)1⋅B(α,β+1)=α+ββ
计算后验概率:
-
当 Y = c 1 Y = c_1 Y=c1:
P ( θ ∣ Y = c 1 ) = θ ⋅ 1 B ( α , β ) θ α − 1 ( 1 − θ ) β − 1 α α + β = θ α ( 1 − θ ) β − 1 B ( α , β ) ⋅ α α + β = θ α ( 1 − θ ) β − 1 B ( α + 1 , β ) P(\theta|Y=c_1) = \frac{\theta \cdot \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1}}{\frac{\alpha}{\alpha+\beta}} = \frac{\theta^{\alpha} (1-\theta)^{\beta-1}}{B(\alpha, \beta) \cdot \frac{\alpha}{\alpha+\beta}} = \frac{\theta^{\alpha} (1-\theta)^{\beta-1}}{B(\alpha+1, \beta)} P(θ∣Y=c1)=α+βαθ⋅B(α,β)1θα−1(1−θ)β−1=B(α,β)⋅α+βαθα(1−θ)β−1=B(α+1,β)θα(1−θ)β−1
这是 B e ( α + 1 , β ) Be(\alpha+1, \beta) Be(α+1,β) 的密度形式
-
当 Y = c 2 Y = c_2 Y=c2:
P ( θ ∣ Y = c 2 ) = ( 1 − θ ) ⋅ 1 B ( α , β ) θ α − 1 ( 1 − θ ) β − 1 β α + β = θ α − 1 ( 1 − θ ) β B ( α , β ) ⋅ β α + β = θ α − 1 ( 1 − θ ) β B ( α , β + 1 ) P(\theta|Y=c_2) = \frac{(1-\theta) \cdot \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1}}{\frac{\beta}{\alpha+\beta}} = \frac{\theta^{\alpha-1} (1-\theta)^{\beta}}{B(\alpha, \beta) \cdot \frac{\beta}{\alpha+\beta}} = \frac{\theta^{\alpha-1} (1-\theta)^{\beta}}{B(\alpha, \beta+1)} P(θ∣Y=c2)=α+ββ(1−θ)⋅B(α,β)1θα−1(1−θ)β−1=B(α,β)⋅α+ββθα−1(1−θ)β=B(α,β+1)θα−1(1−θ)β
这是 B e ( α , β + 1 ) Be(\alpha, \beta+1) Be(α,β+1) 的密度形式
最后进行后验估计:
-
当 Y = c 1 Y = c_1 Y=c1,后验为 B e ( α + 1 , β ) Be(\alpha+1, \beta) Be(α+1,β),其密度为:
f ( θ ) ∝ θ α ( 1 − θ ) β − 1 f(\theta) \propto \theta^{\alpha} (1-\theta)^{\beta-1} f(θ)∝θα(1−θ)β−1求导:
d d θ [ θ α ( 1 − θ ) β − 1 ] = α θ α − 1 ( 1 − θ ) β − 1 − ( β − 1 ) θ α ( 1 − θ ) β − 2 \frac{d}{d\theta} \left[ \theta^{\alpha} (1-\theta)^{\beta-1} \right] = \alpha \theta^{\alpha-1} (1-\theta)^{\beta-1} - (\beta-1) \theta^{\alpha} (1-\theta)^{\beta-2} dθd[θα(1−θ)β−1]=αθα−1(1−θ)β−1−(β−1)θα(1−θ)β−2
令导数为 0:
α ( 1 − θ ) − ( β − 1 ) θ = 0 ⟹ θ ^ = α α + β − 1 \alpha (1-\theta) - (\beta-1) \theta = 0 \implies \hat{\theta} = \frac{\alpha}{\alpha+\beta-1} α(1−θ)−(β−1)θ=0⟹θ^=α+β−1α
-
当 Y = c 2 Y = c_2 Y=c2,后验为 B e ( α , β + 1 ) Be(\alpha, \beta+1) Be(α,β+1),类似可得:
θ ^ = α − 1 α + β − 1 \hat{\theta} = \frac{\alpha-1}{\alpha+\beta-1} θ^=α+β−1α−1
假设 α = β = 1 \alpha = \beta = 1 α=β=1(均匀分布特例),则:
-
Y = c 1 Y = c_1 Y=c1 时,后验为 B e ( 2 , 1 ) Be(2, 1) Be(2,1),MAP 估计:
θ ^ = 1 1 + 1 − 1 = 1 \hat{\theta} = \frac{1}{1+1-1} = 1 θ^=1+1−11=1
-
一般化:若观测 n n n 个样本, n 1 n_1 n1 个 c 1 c_1 c1,后验为 B e ( α + n 1 , β + n − n 1 ) Be(\alpha+n_1, \beta+n-n_1) Be(α+n1,β+n−n1),MAP 估计为:
θ ^ = α + n 1 − 1 ( α + n 1 − 1 ) + ( β + n − n 1 − 1 ) = n 1 + ( α − 1 ) n + ( α + β − 2 ) \hat{\theta} = \frac{\alpha+n_1-1}{(\alpha+n_1-1)+(\beta+n-n_1-1)} = \frac{n_1 + (\alpha-1)}{n + (\alpha+\beta-2)} θ^=(α+n1−1)+(β+n−n1−1)α+n1−1=n+(α+β−2)n1+(α−1)
当 α = β = 1 \alpha = \beta = 1 α=β=1:
θ ^ = n 1 + 1 − 1 n + ( 1 + 1 − 2 ) = n 1 n \hat{\theta} = \frac{n_1 + 1-1}{n + (1+1-2)} = \frac{n_1}{n} θ^=n+(1+1−2)n1+1−1=nn1
与频率估计一致
-
当 α = β = λ + 1 \alpha = \beta = \lambda+1 α=β=λ+1:
θ ^ = n 1 + ( λ + 1 − 1 ) n + ( λ + 1 + λ + 1 − 2 ) = n 1 + λ n + 2 λ \hat{\theta} = \frac{n_1 + (\lambda+1-1)}{n + (\lambda+1+\lambda +1-2)} = \frac{n_1 + \lambda}{n + 2\lambda} θ^=n+(λ+1+λ+1−2)n1+(λ+1−1)=n+2λn1+λ
这正是拉普拉斯平滑形式:分子加 λ \lambda λ,分母加特征取值数(此处为 2)乘以 λ \lambda λ
结论
对于均匀分布先验:
- 均匀分布 U ( 0 , 1 ) U(0,1) U(0,1) 是 B e ( 1 , 1 ) Be(1,1) Be(1,1) 的特例
- 贝叶斯估计(MAP)结果为 θ ^ = n 1 n \hat{\theta} = \frac{n_1}{n} θ^=nn1,与频率学派估计一致
- 原因:均匀先验不引入额外信息,等价于仅依赖数据似然
对于Beta 分布先验:
- 一般 Beta 先验 B e ( α , β ) Be(\alpha, \beta) Be(α,β) 引入了先验信息
- 当 α = β = 2 \alpha = \beta = 2 α=β=2 时,后验估计为 n 1 + 1 n + 2 \frac{n_1 + 1}{n + 2} n+2n1+1,正好是拉普拉斯平滑形式
- 拉普拉斯平滑可视为贝叶斯估计的特例,先验为 B e ( 2 , 2 ) Be(2, 2) Be(2,2),相当于在频率估计基础上“伪计数”正则化
学的有点懵, 拉个表格清醒一下:
概念 | 先验估计 (Prior Estimation) | 后验估计 (Posterior Estimation) | 似然估计 (以 MLE 为代表) | 贝叶斯估计 (Bayesian Estimation) |
---|---|---|---|---|
定义 | 在观测数据前,基于假设或经验对参数的估计 | 在观测数据后,结合先验和似然计算参数的概率分布 | 通过最大化似然函数估计参数,仅依赖数据 | 结合先验和似然,通过后验分布估计参数 |
依赖数据 | 不依赖观测数据,仅基于初始假设。 | 依赖数据和先验,更新后的估计 | 完全依赖数据,不考虑先验 | 依赖数据和先验,综合估计 |
例子 | 抛硬币估计正面概率 θ \theta θ: 假设 θ ∼ U ( 0 , 1 ) \theta \sim U(0,1) θ∼U(0,1),估计 θ ^ = 0.5 \hat{\theta} = 0.5 θ^=0.5(期望) |
抛 10 次,8 次正面: 先验 θ ∼ U ( 0 , 1 ) \theta \sim U(0,1) θ∼U(0,1),后验为 B e t a ( 9 , 3 ) Beta(9, 3) Beta(9,3),MAP 估计 θ ^ = 0.8 \hat{\theta} = 0.8 θ^=0.8 |
抛 10 次,8 次正面: 似然 L ( θ ) = θ 8 ( 1 − θ ) 2 L(\theta) = \theta^8 (1-\theta)^2 L(θ)=θ8(1−θ)2,MLE 估计 θ ^ = 0.8 \hat{\theta} = 0.8 θ^=0.8 |
抛 10 次,8 次正面: 先验 θ ∼ B e t a ( 2 , 2 ) \theta \sim Beta(2, 2) θ∼Beta(2,2),后验为 B e t a ( 10 , 4 ) Beta(10, 4) Beta(10,4),MAP 估计 θ ^ = 0.75 \hat{\theta} = 0.75 θ^=0.75,后验均值 θ ^ = 0.714 \hat{\theta} = 0.714 θ^=0.714 |
应用场景 | - 初始假设设定 - 领域知识引入 - 贝叶斯框架的先验设定 |
- 贝叶斯分类中的后验概率计算 - 参数更新 |
- 参数估计(如高斯分布均值) - 朴素贝叶斯中频率估计 - 逻辑回归优化 |
- 稀疏数据估计 - 朴素贝叶斯中平滑(如拉普拉斯平滑) - 贝叶斯网络参数估计 |
优缺点 | 优点 :简单,可引入领域知识。 缺点 :主观性强,可能不准确。 |
优点 :结合数据和先验,更新信念; 缺点 :计算复杂,依赖先验选择 |
优点 :简单,仅依赖数据,适合大数据。 缺点 :数据量少时过拟合,可能导致零概率 |
优点 :引入先验,适合稀疏数据,防过拟合。 缺点 :计算复杂,依赖先验选择 |
与贝叶斯框架的关系 | 提供初始分布 P ( θ ) P(\theta) P(θ),是贝叶斯估计的起点 | 贝叶斯估计的目标,体现“更新”过程 | 提供似然函数 | 先验参数贝叶斯公式的一部分,但单独使用时不涉及先验 |
形象比喻 | 没抛硬币前,你猜硬币正面概率是 0.5 | 抛了 10 次后,结合猜测和结果,更新概率为 0.75 | 只看抛掷结果(10 次 8 正),算概率为 0.8 | 结合你的猜测(先验)和抛掷结果,综合估计为 0.75 |
更多推荐
所有评论(0)