笔记目录:
统计学习方法(李航) 第一章 绪论
统计学习方法(李航)第二章 感知机
统计学习方法(李航)第三章 k近邻

第一节 贝叶斯定理

贝叶斯定理:

已知: 存在 K K K c 1 , c 2 , . . . , c K c_1,c_2,...,c_K c1,c2,...,cK, 给定一个新的实例 x = ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) ) x=(x^{(1)},x^{(2)},...,x^{(n)}) x=(x(1),x(2),...,x(n))

问: 该实例属于 c i c_i ci类的概率是多少?

P ( Y = c i ∣ X = x ) = P ( X = x ∣ Y = c i ) ∗ P ( Y = c i ) P ( X = x ) = P ( X = x ∣ Y = c i ) ∗ P ( Y = c i ) ∑ i = 1 K P ( X = x ∣ Y = c i ) ∗ P ( Y = c i ) P(Y=c_i|X=x) = \frac{P(X=x|Y=c_i)*P(Y=c_i)}{P(X=x)}\\=\frac{P(X=x|Y=c_i)*P(Y=c_i)}{\sum_{i=1}^{K}P(X=x|Y=c_i)*P(Y=c_i)} P(Y=ciX=x)=P(X=x)P(X=xY=ci)P(Y=ci)=i=1KP(X=xY=ci)P(Y=ci)P(X=xY=ci)P(Y=ci)

之后求解该实例属于每个类的概率,取最大的类别即为预测结果

若假设实例特征之间相互独立, 则

P ( X = x ∣ Y = c i ) = ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c i ) P(X=x|Y=c_i) = \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i) P(X=xY=ci)=j=1nP(X(j)=x(j)Y=ci)

也就是每个特征的预测概率之积, 则原公式可以进一步化为:
P ( Y = c i ∣ X = x ) = P ( Y = c i ) ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c i ) ∑ i = 1 K P ( Y = c i ) ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c i ) P(Y=c_i|X=x)=\frac{P(Y=c_i) \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i)}{\sum_{i=1}^{K}P(Y=c_i) \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i) } P(Y=ciX=x)=i=1KP(Y=ci)j=1nP(X(j)=x(j)Y=ci)P(Y=ci)j=1nP(X(j)=x(j)Y=ci)

这就是 朴素贝叶斯定理


第二节 朴素贝叶斯

1. 基本方法

训练数据集:

T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\} T={(x1,y1),(x2,y2),...,(xN,yN)}

输入: X ⊂ R n , x ∈ X X \subset R^n, x \in X XRn,xX

输出: Y = { c 1 , c 2 , . . . , c K } , y ∈ Y Y=\{c_1,c_2,...,c_K\}, y \in Y Y={c1,c2,...,cK},yY

这是一种生成方法:, 即学习联合概率分布 P ( X , Y ) P(X,Y) P(X,Y)

  • 先验概率分布:

    P ( Y = c i ) , i = 1 , 2 , . . . , K P(Y=c_i), i=1,2,...,K P(Y=ci),i=1,2,...,K

  • 条件概率分布:

P ( X = x ∣ Y = c i ) = P ( X ( 1 ) = x ( 1 ) , . . . , X ( n ) = x ( n ) ∣ Y = c i ) P(X=x|Y=c_i)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_i) P(X=xY=ci)=P(X(1)=x(1),...,X(n)=x(n)Y=ci)

  • 联合概率分布:

P ( X , Y ) = P ( X = x ∣ Y = c i ) P ( Y = c i ) , i = 1 , 2 , . . . , K P(X,Y) = P(X=x|Y=c_i)P(Y=c_i), i=1,2,...,K P(X,Y)=P(X=xY=ci)P(Y=ci),i=1,2,...,K

2. 朴素贝叶斯分类

为什么要使用朴素贝叶斯?

如果不假设特征条件独立,需直接计算联合概率 P ( X 1 , X 2 , … , X n ∣ C ) P(X1,X2,…,Xn∣C) P(X1,X2,,XnC), 这要求:

  • 考虑所有特征组合的概率
  • 对于 n 个二值特征(例如“是/否”),每种类别下有 2 n 2^n 2n 种可能的特征组合
  • 若特征取值不是二值,而是 m 个离散值,则组合数为 m n m^n mn

而朴素贝叶斯假设所有特征条件独立,即给定类别 C,特征 X 1 , X 2 , … , X n X_1, X_2, \ldots, X_n X1,X2,,Xn 相互独立。因此,联合概率可以分解为: P ( X 1 , X 2 , … , X n ∣ C ) = P ( X 1 ∣ C ) ⋅ P ( X 2 ∣ C ) ⋅ … ⋅ P ( X n ∣ C ) P(X_1, X_2, \ldots, X_n | C) = P(X_1 | C) \cdot P(X_2 | C) \cdot \ldots \cdot P(X_n | C) P(X1,X2,,XnC)=P(X1C)P(X2C)P(XnC)
这使得计算复杂度为 O ( n ⋅ k ) O(n \cdot k) O(nk),其中 n 是特征数,k 是类别数,只需存储和计算每个特征在每个类别下的条件概率

  • 后验概率

P ( Y = c i ∣ X = x ) = P ( Y = c i ) ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c i ) ∑ i = 1 K P ( Y = c i ) ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c i ) P(Y=c_i|X=x)=\frac{P(Y=c_i) \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i)}{\sum_{i=1}^{K}P(Y=c_i) \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i) } P(Y=ciX=x)=i=1KP(Y=ci)j=1nP(X(j)=x(j)Y=ci)P(Y=ci)j=1nP(X(j)=x(j)Y=ci)

  • 分类

y = a r g m a x c i P ( Y = c i ) ∏ j = 1 n P ( X ( j ) = x ( j ) ∣ Y = c i ) y=\underset{c_i}{argmax}P(Y=c_i)\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i) y=ciargmaxP(Y=ci)j=1nP(X(j)=x(j)Y=ci)

即不考虑分母(因为每个类别预测概率的分母都一样), 只考虑分子最大

3. 证明贝叶斯期望风险最小化与后验概率最大化等价

假设:

  • 特征向量为 x \mathbf{x} x,类别集合为 C = { c 1 , c 2 , … , c K } \mathcal{C} = \{c_1, c_2, \ldots, c_K\} C={c1,c2,,cK}
  • 决策规则为 c ^ ( x ) \hat{c}(\mathbf{x}) c^(x),即给定 x \mathbf{x} x,选择一个类别 c ^ \hat{c} c^
  • 损失函数 L ( c i , c ^ ) L(c_i, \hat{c}) L(ci,c^) 表示真实类别为 c i c_i ci,预测类别为 c ^ \hat{c} c^ 时的损失。

我们的目标是找到决策规则 c ^ ( x ) \hat{c}(\mathbf{x}) c^(x),使期望风险最小

期望风险:

给定特征 x \mathbf{x} x,选择类别 c ^ \hat{c} c^条件风险 (期望损失)为:

R ( c ^ ∣ x ) = ∑ c i ∈ C L ( c i , c ^ ) P ( c i ∣ x ) R(\hat{c} | \mathbf{x}) = \sum_{c_i \in \mathcal{C}} L(c_i, \hat{c}) P(c_i | \mathbf{x}) R(c^x)=ciCL(ci,c^)P(cix)

其中:

  • P ( c i ∣ x ) P(c_i | \mathbf{x}) P(cix) 是后验概率,表示给定 x \mathbf{x} x 时类别为 c i c_i ci 的概率
  • L ( c i , c ^ ) L(c_i, \hat{c}) L(ci,c^) 是损失函数

期望风险是条件风险关于 x \mathbf{x} x 的期望:

R ( c ^ ) = E x [ R ( c ^ ∣ x ) ] = ∫ R ( c ^ ∣ x ) P ( x ) d x R(\hat{c}) = \mathbb{E}_{\mathbf{x}}[R(\hat{c} | \mathbf{x})] = \int R(\hat{c} | \mathbf{x}) P(\mathbf{x}) d\mathbf{x} R(c^)=Ex[R(c^x)]=R(c^x)P(x)dx

目标是选择 c ^ ( x ) \hat{c}(\mathbf{x}) c^(x) ,使 R ( c ^ ∣ x ) R(\hat{c} | \mathbf{x}) R(c^x) 对每个 x \mathbf{x} x 最小,从而最小化总体期望风险

为简化推导,假设使用 0-1 损失函数 ,即:

L ( c i , c ^ ) = { 0 , if  c ^ = c i 1 , if  c ^ ≠ c i L(c_i, \hat{c}) = \begin{cases} 0, & \text{if } \hat{c} = c_i \\ 1, & \text{if } \hat{c} \neq c_i \end{cases} L(ci,c^)={0,1,if c^=ciif c^=ci

这意味着正确分类无损失,错误分类损失为1. 这种损失函数常用于分类问题

将 0-1 损失函数代入条件风险: R ( c ^ ∣ x ) = ∑ c i ∈ C L ( c i , c ^ ) P ( c i ∣ x ) R(\hat{c} | \mathbf{x}) = \sum_{c_i \in \mathcal{C}} L(c_i, \hat{c}) P(c_i | \mathbf{x}) R(c^x)=ciCL(ci,c^)P(cix), 对于 0-1 损失:

  • c ^ = c i \hat{c} = c_i c^=ci L ( c i , c ^ ) = 0 L(c_i, \hat{c}) = 0 L(ci,c^)=0,该项贡献为 0
  • c ^ ≠ c i \hat{c} \neq c_i c^=ci L ( c i , c ^ ) = 1 L(c_i, \hat{c}) = 1 L(ci,c^)=1,贡献为 P ( c i ∣ x ) P(c_i | \mathbf{x}) P(cix)

因此: R ( c ^ ∣ x ) = ∑ c i ≠ c ^ P ( c i ∣ x ) R(\hat{c} | \mathbf{x}) = \sum_{c_i \neq \hat{c}} P(c_i | \mathbf{x}) R(c^x)=ci=c^P(cix). 注意到: ∑ c i ∈ C P ( c i ∣ x ) = 1 \sum_{c_i \in \mathcal{C}} P(c_i | \mathbf{x}) = 1 ciCP(cix)=1, 所以: ∑ c i ≠ c ^ P ( c i ∣ x ) = 1 − P ( c ^ ∣ x ) \sum_{c_i \neq \hat{c}} P(c_i | \mathbf{x}) = 1 - P(\hat{c} | \mathbf{x}) ci=c^P(cix)=1P(c^x), 于是条件风险为: R ( c ^ ∣ x ) = 1 − P ( c ^ ∣ x ) R(\hat{c} | \mathbf{x}) = 1 - P(\hat{c} | \mathbf{x}) R(c^x)=1P(c^x)

要使 R ( c ^ ∣ x ) R(\hat{c} | \mathbf{x}) R(c^x) 最小,需使: R ( c ^ ∣ x ) = 1 − P ( c ^ ∣ x ) R(\hat{c} | \mathbf{x}) = 1 - P(\hat{c} | \mathbf{x}) R(c^x)=1P(c^x) 最小。最小化 R ( c ^ ∣ x ) R(\hat{c} | \mathbf{x}) R(c^x) 等价于最大化 P ( c ^ ∣ x ) P(\hat{c} | \mathbf{x}) P(c^x), 即: c ^ ( x ) = arg ⁡ min ⁡ c ^ R ( c ^ ∣ x ) = arg ⁡ max ⁡ c ^ P ( c ^ ∣ x ) \hat{c}(\mathbf{x}) = \arg\min_{\hat{c}} R(\hat{c} | \mathbf{x}) = \arg\max_{\hat{c}} P(\hat{c} | \mathbf{x}) c^(x)=argminc^R(c^x)=argmaxc^P(c^x).

这表明,选择使后验概率 P ( c ^ ∣ x ) P(\hat{c} | \mathbf{x}) P(c^x) 最大的类别 c ^ \hat{c} c^,可以最小化条件风险

由于总体期望风险 R ( c ^ ) = E x [ R ( c ^ ∣ x ) ] R(\hat{c}) = \mathbb{E}_{\mathbf{x}}[R(\hat{c} | \mathbf{x})] R(c^)=Ex[R(c^x)],对每个 x \mathbf{x} x 选择使 R ( c ^ ∣ x ) R(\hat{c} | \mathbf{x}) R(c^x) 最小的 c ^ \hat{c} c^,将使整个积分最小。因此, 对每个 x \mathbf{x} x 选择后验概率最大的类别 ,等价于最小化总体期望风险


第三节 极大似然估计方法

原理: 使似然函数达到最大的参数值

  • 假设 X X X 的密度函数为 f ( W , β ) f(W,\beta) f(W,β),如果简单随机样本 X 1 , X 2 , . . . , X N ) X_1,X_2,...,X_N) X1,X2,...,XN)相互独立, 则其联合密度函数为

L ( x 1 , x 2 , . . . , x N ) = ∏ i = 1 N f ( x i , β ) L(x_1,x_2,...,x_N)=\prod_{i=1}^Nf(x_i,\beta) L(x1,x2,...,xN)=i=1Nf(xi,β)

  • ( X 1 , X 2 , . . . , X N ) (X_1,X_2,...,X_N) (X1,X2,...,XN) 取定值 ( x 1 , x 2 , . . . , x N ) (x_1,x_2,...,x_N) (x1,x2,...,xN)时, L ( x 1 , x 2 , . . . , x N ; β ) L(x_1,x_2,...,x_N;\beta) L(x1,x2,...,xN;β) β \beta β 的函数, 即样本的似然函数
  • β \beta β 的极大似然估计 β ^ = a r g m a x β ∈ θ L ( x 1 , x 2 , . . . , x N ; β ) \hat{\beta}=\underset{\beta \in \theta}{argmax}L(x_1,x_2,...,x_N;\beta) β^=βθargmaxL(x1,x2,...,xN;β)
  • 记似然函数 L ( β ) = L ( x 1 , x 2 , . . . , x N ; β ) L(\beta)=L(x_1,x_2,...,x_N;\beta) L(β)=L(x1,x2,...,xN;β)

求解办法:

  • 遍历法: 若参数空间比较少, 可以依次带入找到让似然函数取值最大的那个参数
  • 数值计算法
    • 对每个参数 β \beta β 求偏导, 求出其值
    • 若无法求骗到,则可采用迭代法

第四节 朴素贝叶斯算法

训练

  • 计算先验概率

    P ( c ) = 类别  c  的样本数 总样本数 P(c) = \frac{\text{类别 } c \text{ 的样本数}}{\text{总样本数}} P(c)=总样本数类别 c 的样本数

  • 计算条件概率

    P ( x i ∣ c ) (一般通过频率估计) P(x_i|c) (一般通过频率估计) P(xic)(一般通过频率估计)

预测

  • 对新样本 x x x 计算每个类别的 P ( c ) ∏ i = 1 n P ( x i ∣ c ) P(c) \prod_{i=1}^n P(x_i|c) P(c)i=1nP(xic)
  • 选择最大值对应的类别

第五节 贝叶斯估计

贝叶斯估计(Bayesian Estimation)是基于贝叶斯概率理论的一种统计推断方法,用于从观测数据中估计未知参数。它结合了先验知识和观测数据,通过贝叶斯定理更新参数的概率分布。以下是其核心概念的简要介绍:

1. 贝叶斯定理

贝叶斯估计的核心是贝叶斯定理,数学表达式为:

P ( θ ∣ D ) = P ( D ∣ θ ) P ( θ ) P ( D ) P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)} P(θD)=P(D)P(Dθ)P(θ)

其中:

  • θ \theta θ:待估计的参数(如均值、方差等)
  • D D D:观测数据
  • P ( θ ∣ D ) P(\theta|D) P(θD):后验概率,表示在观测到数据 ( D ) 后,参数 θ \theta θ 的概率分布
  • P ( D ∣ θ ) P(D|\theta) P(Dθ):似然函数,表示在给定参数 θ \theta θ 下观测到数据 ( D ) 的概率
  • P ( θ ) P(\theta) P(θ):先验概率,反映在观测数据之前对参数 θ \theta θ 的信念或假设
  • P ( D ) P(D) P(D):证据(或边缘概率),是数据的总概率,通常作为归一化常数

2. 贝叶斯估计的步骤

  1. 确定先验分布 P ( θ ) P(\theta) P(θ)

    • 根据领域知识或历史数据,假设参数 θ \theta θ 的初始概率分布(如正态分布、均匀分布等)
    • 先验可以是信息性先验(基于强假设)或无信息先验(尽量不引入主观偏见)
  2. 计算似然函数 P ( D ∣ θ ) P(D|\theta) P(Dθ)

    • 根据观测数据和模型,计算在不同参数值下数据出现的概率
    • 例如,若数据服从正态分布,似然函数基于正态分布的概率密度
  3. 计算后验分布 P ( θ ∣ D ) P(\theta|D) P(θD)

    • 利用贝叶斯定理,将先验和似然结合,得到参数的后验分布
    • 后验分布综合了先验知识和观测数据的信息
  4. 参数估计

    • 从后验分布中提取点估计(如后验均值、后验中位数或众数)
    • 或者提供区间估计(如可信区间,反映参数的不确定性)

3. 贝叶斯估计的特点

  • 结合先验信息:与经典的频率派方法(如最大似然估计)不同,贝叶斯估计允许融入主观或客观的先验知识
  • 概率分布输出:贝叶斯估计不只给出一个点估计,还提供参数的完整概率分布,适合描述不确定性
  • 计算复杂性:后验分布的计算可能涉及复杂的积分,常用数值方法(如马尔可夫链蒙特卡洛MCMC)或共轭先验简化计算
  • 灵活性:适用于小样本数据、复杂模型和非线性问题

4. 与频率派估计的对比

  • 频率派:参数被视为固定值,估计基于数据的似然函数(如最大似然估计),不考虑先验
  • 贝叶斯派:参数被视为随机变量,估计基于后验分布,结合了先验和数据
  • 不确定性表达:贝叶斯方法通过后验分布直接量化不确定性,而频率派通常通过置信区间间接描述

5. 贝叶斯估计的分类应用:

先验概率的贝叶斯估计:

P λ ( Y = c k ) = ∑ i = 1 N I ( y i = = c k ) + λ N + K λ P_{\lambda}(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i==c_k)+\lambda}{N+K\lambda} Pλ(Y=ck)=N+Kλi=1NI(yi==ck)+λ

条件概率的贝叶斯估计:

P λ ( X ( i ) = a j l ∣ Y = c k ) = ∑ i = 1 N I ( x i ( j ) = = a j l , y i = c k ) + λ ∑ i = 1 N I ( y i = = c k ) + S j λ P_{\lambda}(X^{(i)}=a_{jl}|Y=c_k) = \frac{\sum_{i=1}^{N}I(x_i^{(j)}==a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^{N}I(y_i==c_k)+S_j\lambda} Pλ(X(i)=ajlY=ck)=i=1NI(yi==ck)+Sjλi=1NI(xi(j)==ajl,yi=ck)+λ

其中 S j S_j Sj 表示特征 X ( j ) X^{(j)} X(j) 的可能取值数

这可估计在类别 Y = c k Y = c_k Y=ck 下,特征 X ( j ) X^{(j)} X(j)(第 j j j 个特征)取值 a j l a_{jl} ajl 的条件概率 P ( X ( j ) = a j l ∣ Y = c k ) P(X^{(j)} = a_{jl} | Y = c_k) P(X(j)=ajlY=ck)

λ \lambda λ为0是, 是极大似然估计; 当 λ \lambda λ为1时, 称作 拉普拉斯平滑

这里的平滑思想是什么??

对于

P λ ( Y = c k ) = ∑ i = 1 N I ( y i = = c k ) + λ N + K λ P_{\lambda}(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i==c_k)+\lambda}{N+K\lambda} Pλ(Y=ck)=N+Kλi=1NI(yi==ck)+λ

P λ ( Y = c k ) P_{\lambda}(Y=c_k) Pλ(Y=ck) 记为 θ k \theta_k θk, ∑ i = 1 N I ( y i = = c k ) \sum_{i=1}^{N}I(y_i==c_k) i=1NI(yi==ck) 记为 N k N_k Nk, 则

θ k ( N + K λ ) = N k + λ \theta_k(N+K\lambda)=N_k+\lambda θk(N+Kλ)=Nk+λ

进一步变形为

( θ k N − N k ) + λ ( K θ k − 1 ) = 0 (\theta_kN-N_k)+\lambda(K\theta_k-1)=0 (θkNNk)+λ(Kθk1)=0

这里的 ( θ k N − N k ) (\theta_kN-N_k) (θkNNk) 若令它为0, 则 θ k = N k N \theta_k = \frac{N_k}{N} θk=NNk, 即为 θ \theta θ 的极大似然估计;

若令 λ ( K θ k − 1 ) \lambda(K\theta_k-1) λ(Kθk1) 为0, 则 θ = 1 K \theta=\frac{1}{K} θ=K1, 为 θ \theta θ 的先验估计

平滑公式不仅解决零概率问题,还通过 λ \lambda λ 引入了先验信息。 λ \lambda λ 可以看作是对先验分布的假设:

  • λ \lambda λ 小,先验影响小,估计更接近 MLE
  • λ \lambda λ 大,先验影响大,估计更接近先验估计

第六节 贝叶斯估计与频率学派

例题 1:均匀分布先验下的贝叶斯估计

  • Y Y Y 分为两类 c 1 c_1 c1 c 2 c_2 c2,先验参考概率为 θ \theta θ,假设参考概率服从 [ 0 , 1 ] [0,1] [0,1] 上的均匀分布 U ( 0 , 1 ) U(0,1) U(0,1),表示 θ \theta θ 的先验为常数
  • 参考概率 θ \theta θ 的先验概率密度:
    f ( θ ) = 1 f(\theta) = 1 f(θ)=1
  • 已知 θ \theta θ Y Y Y 的条件概率模型:
    g ( Y ∣ θ ) = { θ , Y = c 1 1 − θ , Y = c 2 g(Y|\theta) = \begin{cases} \theta, & Y = c_1 \\ 1-\theta, & Y = c_2 \end{cases} g(Yθ)={θ,1θ,Y=c1Y=c2
  • 求后验概率 P ( θ ∣ Y ) P(\theta|Y) P(θY)

解:

根据贝叶斯定理:

P ( θ ∣ Y ) = P ( Y ∣ θ ) P ( θ ) P ( Y ) P(\theta|Y) = \frac{P(Y|\theta)P(\theta)}{P(Y)} P(θY)=P(Y)P(Yθ)P(θ)

由于 θ ∼ U ( 0 , 1 ) \theta \sim U(0,1) θU(0,1),其概率密度为:

P ( θ ) = f ( θ ) = 1 , θ ∈ [ 0 , 1 ] P(\theta) = f(\theta) = 1, \quad \theta \in [0,1] P(θ)=f(θ)=1,θ[0,1]

根据条件概率模型:

  • Y = c 1 Y = c_1 Y=c1,则 P ( Y = c 1 ∣ θ ) = θ P(Y=c_1|\theta) = \theta P(Y=c1θ)=θ
  • Y = c 2 Y = c_2 Y=c2,则 P ( Y = c 2 ∣ θ ) = 1 − θ P(Y=c_2|\theta) = 1-\theta P(Y=c2θ)=1θ

其中 P ( Y ) P(Y) P(Y) θ \theta θ 的边缘分布:

P ( Y ) = ∫ 0 1 P ( Y ∣ θ ) P ( θ ) d θ P(Y) = \int_0^1 P(Y|\theta)P(\theta) d\theta P(Y)=01P(Yθ)P(θ)dθ

  • Y = c 1 Y = c_1 Y=c1
    P ( Y = c 1 ) = ∫ 0 1 θ ⋅ 1 d θ = [ θ 2 2 ] 0 1 = 1 2 P(Y=c_1) = \int_0^1 \theta \cdot 1 d\theta = \left[\frac{\theta^2}{2}\right]_0^1 = \frac{1}{2} P(Y=c1)=01θ1dθ=[2θ2]01=21
  • Y = c 2 Y = c_2 Y=c2
    P ( Y = c 2 ) = ∫ 0 1 ( 1 − θ ) ⋅ 1 d θ = [ θ − θ 2 2 ] 0 1 = 1 − 1 2 = 1 2 P(Y=c_2) = \int_0^1 (1-\theta) \cdot 1 d\theta = \left[\theta - \frac{\theta^2}{2}\right]_0^1 = 1 - \frac{1}{2} = \frac{1}{2} P(Y=c2)=01(1θ)1dθ=[θ2θ2]01=121=21

则后验概率:

  • Y = c 1 Y = c_1 Y=c1
    P ( θ ∣ Y = c 1 ) = P ( Y = c 1 ∣ θ ) P ( θ ) P ( Y = c 1 ) = θ ⋅ 1 1 2 = 2 θ P(\theta|Y=c_1) = \frac{P(Y=c_1|\theta)P(\theta)}{P(Y=c_1)} = \frac{\theta \cdot 1}{\frac{1}{2}} = 2\theta P(θY=c1)=P(Y=c1)P(Y=c1θ)P(θ)=21θ1=2θ
  • Y = c 2 Y = c_2 Y=c2
    P ( θ ∣ Y = c 2 ) = P ( Y = c 2 ∣ θ ) P ( θ ) P ( Y = c 2 ) = ( 1 − θ ) ⋅ 1 1 2 = 2 ( 1 − θ ) P(\theta|Y=c_2) = \frac{P(Y=c_2|\theta)P(\theta)}{P(Y=c_2)} = \frac{(1-\theta) \cdot 1}{\frac{1}{2}} = 2(1-\theta) P(θY=c2)=P(Y=c2)P(Y=c2θ)P(θ)=21(1θ)1=2(1θ)

贝叶斯估计:

  • Y = c 1 Y = c_1 Y=c1,后验密度 P ( θ ∣ Y = c 1 ) = 2 θ P(\theta|Y=c_1) = 2\theta P(θY=c1)=2θ,在 θ ∈ [ 0 , 1 ] \theta \in [0,1] θ[0,1] 上单调递增,最大值在 θ = 1 \theta = 1 θ=1,故 MAP 估计为 θ ^ = 1 \hat{\theta} = 1 θ^=1
  • Y = c 2 Y = c_2 Y=c2,后验密度 P ( θ ∣ Y = c 2 ) = 2 ( 1 − θ ) P(\theta|Y=c_2) = 2(1-\theta) P(θY=c2)=2(1θ),单调递减,最大值在 θ = 0 \theta = 0 θ=0,故 MAP 估计为 θ ^ = 0 \hat{\theta} = 0 θ^=0

频率学派估计 θ \theta θ 通常用样本比例:

  • 假设观测到 n n n 个样本,其中 n 1 n_1 n1 个为 c 1 c_1 c1,频率估计为 θ ^ = n 1 n \hat{\theta} = \frac{n_1}{n} θ^=nn1
  • 在此例中,仅观测 1 个样本:
    • Y = c 1 Y = c_1 Y=c1,频率估计 θ ^ = 1 \hat{\theta} = 1 θ^=1
    • Y = c 2 Y = c_2 Y=c2,频率估计 θ ^ = 0 \hat{\theta} = 0 θ^=0

故有 结论 :均匀分布先验下的贝叶斯估计(MAP)与频率学派估计一致


例题2: Beta 分布先验下的贝叶斯估计

  • Y Y Y 分为两类 c 1 c_1 c1 c 2 c_2 c2,先验参考概率为 θ \theta θ,假设参考概率服从 Beta 分布 B e ( α , β ) Be(\alpha, \beta) Be(α,β),表示 θ \theta θ 的先验为 Beta 分布

  • 参考概率 θ \theta θ 的先验概率密度:

    f ( θ ; α , β ) = 1 B ( α , β ) θ α − 1 ( 1 − θ ) β − 1 f(\theta; \alpha, \beta) = \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1} f(θ;α,β)=B(α,β)1θα1(1θ)β1

    其中 B ( α , β ) = ∫ 0 1 t α − 1 ( 1 − t ) β − 1 d t B(\alpha, \beta) = \int_0^1 t^{\alpha-1} (1-t)^{\beta-1} dt B(α,β)=01tα1(1t)β1dt 是 Beta 函数

  • 已知 θ \theta θ Y Y Y 的条件概率模型:

    g ( Y ∣ θ ) = { θ , Y = c 1 1 − θ , Y = c 2 g(Y|\theta) = \begin{cases} \theta, & Y = c_1 \\ 1-\theta, & Y = c_2 \end{cases} g(Yθ)={θ,1θ,Y=c1Y=c2

  • 求后验概率 P ( θ ∣ Y ) P(\theta|Y) P(θY)

解:

后验概率公式:

P ( θ ∣ Y ) = P ( Y ∣ θ ) P ( θ ) P ( Y ) P(\theta|Y) = \frac{P(Y|\theta)P(\theta)}{P(Y)} P(θY)=P(Y)P(Yθ)P(θ)

先验为 Beta 分布:

P ( θ ) = f ( θ ; α , β ) = 1 B ( α , β ) θ α − 1 ( 1 − θ ) β − 1 P(\theta) = f(\theta; \alpha, \beta) = \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1} P(θ)=f(θ;α,β)=B(α,β)1θα1(1θ)β1

  • Y = c 1 Y = c_1 Y=c1 P ( Y = c 1 ∣ θ ) = θ P(Y=c_1|\theta) = \theta P(Y=c1θ)=θ
  • Y = c 2 Y = c_2 Y=c2 P ( Y = c 2 ∣ θ ) = 1 − θ P(Y=c_2|\theta) = 1-\theta P(Y=c2θ)=1θ

P(Y)公式:

P ( Y ) = ∫ 0 1 P ( Y ∣ θ ) P ( θ ) d θ P(Y) = \int_0^1 P(Y|\theta)P(\theta) d\theta P(Y)=01P(Yθ)P(θ)dθ

  • Y = c 1 Y = c_1 Y=c1

    P ( Y = c 1 ) = ∫ 0 1 θ ⋅ 1 B ( α , β ) θ α − 1 ( 1 − θ ) β − 1 d θ = 1 B ( α , β ) ∫ 0 1 θ α ( 1 − θ ) β − 1 d θ P(Y=c_1) = \int_0^1 \theta \cdot \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1} d\theta = \frac{1}{B(\alpha, \beta)} \int_0^1 \theta^{\alpha} (1-\theta)^{\beta-1} d\theta P(Y=c1)=01θB(α,β)1θα1(1θ)β1dθ=B(α,β)101θα(1θ)β1dθ

    积分项是 Beta 分布的形式:
    ∫ 0 1 θ α ( 1 − θ ) β − 1 d θ = B ( α + 1 , β ) \int_0^1 \theta^{\alpha} (1-\theta)^{\beta-1} d\theta = B(\alpha+1, \beta) 01θα(1θ)β1dθ=B(α+1,β)

    利用 Beta 函数性质: B ( a , b ) = Γ ( a ) Γ ( b ) Γ ( a + b ) B(a, b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)} B(a,b)=Γ(a+b)Γ(a)Γ(b),且 Γ ( a + 1 ) = a Γ ( a ) \Gamma(a+1) = a\Gamma(a) Γ(a+1)=aΓ(a),可得:
    B ( α + 1 , β ) = Γ ( α + 1 ) Γ ( β ) Γ ( α + β + 1 ) = α Γ ( α ) Γ ( β ) ( α + β ) Γ ( α + β ) = α α + β B ( α , β ) B(\alpha+1, \beta) = \frac{\Gamma(\alpha+1)\Gamma(\beta)}{\Gamma(\alpha+\beta+1)} = \frac{\alpha \Gamma(\alpha) \Gamma(\beta)}{(\alpha+\beta) \Gamma(\alpha+\beta)} = \frac{\alpha}{\alpha+\beta} B(\alpha, \beta) B(α+1,β)=Γ(α+β+1)Γ(α+1)Γ(β)=(α+β)Γ(α+β)αΓ(α)Γ(β)=α+βαB(α,β)

    因此:
    P ( Y = c 1 ) = 1 B ( α , β ) ⋅ B ( α + 1 , β ) = α α + β P(Y=c_1) = \frac{1}{B(\alpha, \beta)} \cdot B(\alpha+1, \beta) = \frac{\alpha}{\alpha+\beta} P(Y=c1)=B(α,β)1B(α+1,β)=α+βα

  • Y = c 2 Y = c_2 Y=c2

    P ( Y = c 2 ) = ∫ 0 1 ( 1 − θ ) ⋅ 1 B ( α , β ) θ α − 1 ( 1 − θ ) β − 1 d θ = 1 B ( α , β ) ∫ 0 1 θ α − 1 ( 1 − θ ) β d θ P(Y=c_2) = \int_0^1 (1-\theta) \cdot \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1} d\theta = \frac{1}{B(\alpha, \beta)} \int_0^1 \theta^{\alpha-1} (1-\theta)^{\beta} d\theta P(Y=c2)=01(1θ)B(α,β)1θα1(1θ)β1dθ=B(α,β)101θα1(1θ)βdθ

    积分项为:
    ∫ 0 1 θ α − 1 ( 1 − θ ) β d θ = B ( α , β + 1 ) = β α + β B ( α , β ) \int_0^1 \theta^{\alpha-1} (1-\theta)^{\beta} d\theta = B(\alpha, \beta+1) = \frac{\beta}{\alpha+\beta} B(\alpha, \beta) 01θα1(1θ)βdθ=B(α,β+1)=α+ββB(α,β)

    因此:
    P ( Y = c 2 ) = 1 B ( α , β ) ⋅ B ( α , β + 1 ) = β α + β P(Y=c_2) = \frac{1}{B(\alpha, \beta)} \cdot B(\alpha, \beta+1) = \frac{\beta}{\alpha+\beta} P(Y=c2)=B(α,β)1B(α,β+1)=α+ββ

计算后验概率:

  • Y = c 1 Y = c_1 Y=c1

    P ( θ ∣ Y = c 1 ) = θ ⋅ 1 B ( α , β ) θ α − 1 ( 1 − θ ) β − 1 α α + β = θ α ( 1 − θ ) β − 1 B ( α , β ) ⋅ α α + β = θ α ( 1 − θ ) β − 1 B ( α + 1 , β ) P(\theta|Y=c_1) = \frac{\theta \cdot \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1}}{\frac{\alpha}{\alpha+\beta}} = \frac{\theta^{\alpha} (1-\theta)^{\beta-1}}{B(\alpha, \beta) \cdot \frac{\alpha}{\alpha+\beta}} = \frac{\theta^{\alpha} (1-\theta)^{\beta-1}}{B(\alpha+1, \beta)} P(θY=c1)=α+βαθB(α,β)1θα1(1θ)β1=B(α,β)α+βαθα(1θ)β1=B(α+1,β)θα(1θ)β1

    这是 B e ( α + 1 , β ) Be(\alpha+1, \beta) Be(α+1,β) 的密度形式

  • Y = c 2 Y = c_2 Y=c2

    P ( θ ∣ Y = c 2 ) = ( 1 − θ ) ⋅ 1 B ( α , β ) θ α − 1 ( 1 − θ ) β − 1 β α + β = θ α − 1 ( 1 − θ ) β B ( α , β ) ⋅ β α + β = θ α − 1 ( 1 − θ ) β B ( α , β + 1 ) P(\theta|Y=c_2) = \frac{(1-\theta) \cdot \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1}}{\frac{\beta}{\alpha+\beta}} = \frac{\theta^{\alpha-1} (1-\theta)^{\beta}}{B(\alpha, \beta) \cdot \frac{\beta}{\alpha+\beta}} = \frac{\theta^{\alpha-1} (1-\theta)^{\beta}}{B(\alpha, \beta+1)} P(θY=c2)=α+ββ(1θ)B(α,β)1θα1(1θ)β1=B(α,β)α+ββθα1(1θ)β=B(α,β+1)θα1(1θ)β

    这是 B e ( α , β + 1 ) Be(\alpha, \beta+1) Be(α,β+1) 的密度形式

最后进行后验估计:

  • Y = c 1 Y = c_1 Y=c1,后验为 B e ( α + 1 , β ) Be(\alpha+1, \beta) Be(α+1,β),其密度为:
    f ( θ ) ∝ θ α ( 1 − θ ) β − 1 f(\theta) \propto \theta^{\alpha} (1-\theta)^{\beta-1} f(θ)θα(1θ)β1

    求导:

    d d θ [ θ α ( 1 − θ ) β − 1 ] = α θ α − 1 ( 1 − θ ) β − 1 − ( β − 1 ) θ α ( 1 − θ ) β − 2 \frac{d}{d\theta} \left[ \theta^{\alpha} (1-\theta)^{\beta-1} \right] = \alpha \theta^{\alpha-1} (1-\theta)^{\beta-1} - (\beta-1) \theta^{\alpha} (1-\theta)^{\beta-2} dθd[θα(1θ)β1]=αθα1(1θ)β1(β1)θα(1θ)β2

    令导数为 0:

    α ( 1 − θ ) − ( β − 1 ) θ = 0    ⟹    θ ^ = α α + β − 1 \alpha (1-\theta) - (\beta-1) \theta = 0 \implies \hat{\theta} = \frac{\alpha}{\alpha+\beta-1} α(1θ)(β1)θ=0θ^=α+β1α

  • Y = c 2 Y = c_2 Y=c2,后验为 B e ( α , β + 1 ) Be(\alpha, \beta+1) Be(α,β+1),类似可得:

    θ ^ = α − 1 α + β − 1 \hat{\theta} = \frac{\alpha-1}{\alpha+\beta-1} θ^=α+β1α1

假设 α = β = 1 \alpha = \beta = 1 α=β=1(均匀分布特例),则:

  • Y = c 1 Y = c_1 Y=c1 时,后验为 B e ( 2 , 1 ) Be(2, 1) Be(2,1),MAP 估计:

    θ ^ = 1 1 + 1 − 1 = 1 \hat{\theta} = \frac{1}{1+1-1} = 1 θ^=1+111=1

  • 一般化:若观测 n n n 个样本, n 1 n_1 n1 c 1 c_1 c1,后验为 B e ( α + n 1 , β + n − n 1 ) Be(\alpha+n_1, \beta+n-n_1) Be(α+n1,β+nn1),MAP 估计为:

    θ ^ = α + n 1 − 1 ( α + n 1 − 1 ) + ( β + n − n 1 − 1 ) = n 1 + ( α − 1 ) n + ( α + β − 2 ) \hat{\theta} = \frac{\alpha+n_1-1}{(\alpha+n_1-1)+(\beta+n-n_1-1)} = \frac{n_1 + (\alpha-1)}{n + (\alpha+\beta-2)} θ^=(α+n11)+(β+nn11)α+n11=n+(α+β2)n1+(α1)

    α = β = 1 \alpha = \beta = 1 α=β=1

    θ ^ = n 1 + 1 − 1 n + ( 1 + 1 − 2 ) = n 1 n \hat{\theta} = \frac{n_1 + 1-1}{n + (1+1-2)} = \frac{n_1}{n} θ^=n+(1+12)n1+11=nn1

    与频率估计一致

  • α = β = λ + 1 \alpha = \beta = \lambda+1 α=β=λ+1

    θ ^ = n 1 + ( λ + 1 − 1 ) n + ( λ + 1 + λ + 1 − 2 ) = n 1 + λ n + 2 λ \hat{\theta} = \frac{n_1 + (\lambda+1-1)}{n + (\lambda+1+\lambda +1-2)} = \frac{n_1 + \lambda}{n + 2\lambda} θ^=n+(λ+1+λ+12)n1+(λ+11)=n+2λn1+λ

    这正是拉普拉斯平滑形式:分子加 λ \lambda λ,分母加特征取值数(此处为 2)乘以 λ \lambda λ


结论

对于均匀分布先验:

  • 均匀分布 U ( 0 , 1 ) U(0,1) U(0,1) B e ( 1 , 1 ) Be(1,1) Be(1,1) 的特例
  • 贝叶斯估计(MAP)结果为 θ ^ = n 1 n \hat{\theta} = \frac{n_1}{n} θ^=nn1,与频率学派估计一致
  • 原因:均匀先验不引入额外信息,等价于仅依赖数据似然

对于Beta 分布先验:

  • 一般 Beta 先验 B e ( α , β ) Be(\alpha, \beta) Be(α,β) 引入了先验信息
  • α = β = 2 \alpha = \beta = 2 α=β=2 时,后验估计为 n 1 + 1 n + 2 \frac{n_1 + 1}{n + 2} n+2n1+1,正好是拉普拉斯平滑形式
  • 拉普拉斯平滑可视为贝叶斯估计的特例,先验为 B e ( 2 , 2 ) Be(2, 2) Be(2,2),相当于在频率估计基础上“伪计数”正则化

学的有点懵, 拉个表格清醒一下:

概念 先验估计 (Prior Estimation) 后验估计 (Posterior Estimation) 似然估计 (以 MLE 为代表) 贝叶斯估计 (Bayesian Estimation)
定义 在观测数据前,基于假设或经验对参数的估计 在观测数据后,结合先验和似然计算参数的概率分布 通过最大化似然函数估计参数,仅依赖数据 结合先验和似然,通过后验分布估计参数
依赖数据 不依赖观测数据,仅基于初始假设。 依赖数据和先验,更新后的估计 完全依赖数据,不考虑先验 依赖数据和先验,综合估计
例子 抛硬币估计正面概率 θ \theta θ
假设 θ ∼ U ( 0 , 1 ) \theta \sim U(0,1) θU(0,1),估计 θ ^ = 0.5 \hat{\theta} = 0.5 θ^=0.5(期望)
抛 10 次,8 次正面:
先验 θ ∼ U ( 0 , 1 ) \theta \sim U(0,1) θU(0,1),后验为 B e t a ( 9 , 3 ) Beta(9, 3) Beta(9,3),MAP 估计 θ ^ = 0.8 \hat{\theta} = 0.8 θ^=0.8
抛 10 次,8 次正面:
似然 L ( θ ) = θ 8 ( 1 − θ ) 2 L(\theta) = \theta^8 (1-\theta)^2 L(θ)=θ8(1θ)2,MLE 估计 θ ^ = 0.8 \hat{\theta} = 0.8 θ^=0.8
抛 10 次,8 次正面:
先验 θ ∼ B e t a ( 2 , 2 ) \theta \sim Beta(2, 2) θBeta(2,2),后验为 B e t a ( 10 , 4 ) Beta(10, 4) Beta(10,4),MAP 估计 θ ^ = 0.75 \hat{\theta} = 0.75 θ^=0.75,后验均值 θ ^ = 0.714 \hat{\theta} = 0.714 θ^=0.714
应用场景 - 初始假设设定
- 领域知识引入
- 贝叶斯框架的先验设定
- 贝叶斯分类中的后验概率计算
- 参数更新
- 参数估计(如高斯分布均值)
- 朴素贝叶斯中频率估计
- 逻辑回归优化
- 稀疏数据估计
- 朴素贝叶斯中平滑(如拉普拉斯平滑)
- 贝叶斯网络参数估计
优缺点 优点 :简单,可引入领域知识。
缺点 :主观性强,可能不准确。
优点 :结合数据和先验,更新信念;
缺点 :计算复杂,依赖先验选择
优点 :简单,仅依赖数据,适合大数据。
缺点 :数据量少时过拟合,可能导致零概率
优点 :引入先验,适合稀疏数据,防过拟合。
缺点 :计算复杂,依赖先验选择
与贝叶斯框架的关系 提供初始分布 P ( θ ) P(\theta) P(θ),是贝叶斯估计的起点 贝叶斯估计的目标,体现“更新”过程 提供似然函数 先验参数贝叶斯公式的一部分,但单独使用时不涉及先验
形象比喻 没抛硬币前,你猜硬币正面概率是 0.5 抛了 10 次后,结合猜测和结果,更新概率为 0.75 只看抛掷结果(10 次 8 正),算概率为 0.8 结合你的猜测(先验)和抛掷结果,综合估计为 0.75
Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐