统计学习方法（李航）第四章贝叶斯

笔记目录：统计学习方法（李航）第一章绪论统计学习方法（李航）第二章感知机统计学习方法（李航）第三章 k近邻贝叶斯定理:已知: 存在 KKK 类 c1,c2,...,cKc_1,c_2,...,c_Kc1,c2,...,cK, 给定一个新的实例x=(x(1),x(2),...,x(n))x=(x^{(1)},x^{(2)},...,x^{(n)})x=(x(1),x(2),...,x(n

小海496

1217人浏览 · 2025-04-29 21:26:33

小海496 · 2025-04-29 21:26:33 发布

笔记目录：
统计学习方法（李航）第一章绪论
 统计学习方法（李航）第二章感知机
 统计学习方法（李航）第三章 k近邻

第一节贝叶斯定理

贝叶斯定理:

已知: 存在 $K$ 类 $c_1,c_2,...,c_K$ , 给定一个新的实例 $x=(x^{(1)},x^{(2)},...,x^{(n)})$

问: 该实例属于 $c_i$ 类的概率是多少?

$P(Y=c_i|X=x) = \frac{P(X=x|Y=c_i)*P(Y=c_i)}{P(X=x)}\\=\frac{P(X=x|Y=c_i)*P(Y=c_i)}{\sum_{i=1}^{K}P(X=x|Y=c_i)*P(Y=c_i)}$

之后求解该实例属于每个类的概率,取最大的类别即为预测结果

若假设实例特征之间相互独立, 则

$P(X=x|Y=c_i) = \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i)$

也就是每个特征的预测概率之积, 则原公式可以进一步化为:
$P(Y=c_i|X=x)=\frac{P(Y=c_i) \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i)}{\sum_{i=1}^{K}P(Y=c_i) \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i) }$

这就是 朴素贝叶斯定理

第二节朴素贝叶斯

1. 基本方法

训练数据集:

$T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$

输入: $\subset R^n, x \in X$

输出: $Y=\{c_1,c_2,...,c_K\}, y \in Y$

这是一种生成方法:, 即学习联合概率分布 $P (X, Y)$

先验概率分布:

$P(Y=c_i), i=1,2,...,K$
条件概率分布:

$P(X=x|Y=c_i)=P(X^{(1)}=x^{(1)},...,X^{(n)}=x^{(n)}|Y=c_i)$

联合概率分布:

$P(X,Y) = P(X=x|Y=c_i)P(Y=c_i), i=1,2,...,K$

2. 朴素贝叶斯分类

为什么要使用朴素贝叶斯?

如果不假设特征条件独立，需直接计算联合概率 $P (X 1, X 2, \dots, X n ∣ C)$ , 这要求：

考虑所有特征组合的概率

对于 n 个二值特征（例如“是/否”），每种类别下有 $2^n$ 种可能的特征组合

若特征取值不是二值，而是 m 个离散值，则组合数为 $m^n$

而朴素贝叶斯假设所有特征条件独立，即给定类别 C，特征 $X_1, X_2, \ldots, X_n$ 相互独立。因此，联合概率可以分解为： $P(X_1, X_2, \ldots, X_n | C) = P(X_1 | C) \cdot P(X_2 | C) \cdot \ldots \cdot P(X_n | C)$
这使得计算复杂度为 $\cdot k)$ ，其中 n 是特征数，k 是类别数，只需存储和计算每个特征在每个类别下的条件概率

后验概率

$P(Y=c_i|X=x)=\frac{P(Y=c_i) \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i)}{\sum_{i=1}^{K}P(Y=c_i) \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i) }$

分类

$y=\underset{c_i}{argmax}P(Y=c_i)\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_i)$

即不考虑分母(因为每个类别预测概率的分母都一样), 只考虑分子最大

3. 证明贝叶斯期望风险最小化与后验概率最大化等价

假设：

特征向量为 $\mathbf{x}$ ，类别集合为 $\mathcal{C} = \{c_1, c_2, \ldots, c_K\}$
决策规则为 $\hat{c}(\mathbf{x})$ ，即给定 $\mathbf{x}$ ，选择一个类别 $\hat{c}$
损失函数 $L(c_i, \hat{c})$ 表示真实类别为 $c_i$ ，预测类别为 $\hat{c}$ 时的损失。

我们的目标是找到决策规则 $\hat{c}(\mathbf{x})$ ，使期望风险最小

期望风险:

给定特征 $\mathbf{x}$ ，选择类别 $\hat{c}$ 的 条件风险 （期望损失）为：

$R(\hat{c} | \mathbf{x}) = \sum_{c_i \in \mathcal{C}} L(c_i, \hat{c}) P(c_i | \mathbf{x})$

其中：

$P(c_i | \mathbf{x})$ 是后验概率，表示给定 $\mathbf{x}$ 时类别为 $c_i$ 的概率

$L(c_i, \hat{c})$ 是损失函数

期望风险是条件风险关于 $\mathbf{x}$ 的期望：

$R(\hat{c}) = \mathbb{E}_{\mathbf{x}}[R(\hat{c} | \mathbf{x})] = \int R(\hat{c} | \mathbf{x}) P(\mathbf{x}) d\mathbf{x}$

目标是选择 $\hat{c}(\mathbf{x})$ ，使 $R(\hat{c} | \mathbf{x})$ 对每个 $\mathbf{x}$ 最小，从而最小化总体期望风险

为简化推导，假设使用 0-1 损失函数 ，即：

$L(c_i, \hat{c}) = \begin{cases} 0, & \text{if } \hat{c} = c_i \\ 1, & \text{if } \hat{c} \neq c_i \end{cases}$

这意味着正确分类无损失，错误分类损失为1. 这种损失函数常用于分类问题

将 0-1 损失函数代入条件风险： $R(\hat{c} | \mathbf{x}) = \sum_{c_i \in \mathcal{C}} L(c_i, \hat{c}) P(c_i | \mathbf{x})$ , 对于 0-1 损失：

当 $\hat{c} = c_i$ ， $L(c_i, \hat{c}) = 0$ ，该项贡献为 0
当 $\hat{c} \neq c_i$ ， $L(c_i, \hat{c}) = 1$ ，贡献为 $P(c_i | \mathbf{x})$

因此： $R(\hat{c} | \mathbf{x}) = \sum_{c_i \neq \hat{c}} P(c_i | \mathbf{x})$ . 注意到： $\sum_{c_i \in \mathcal{C}} P(c_i | \mathbf{x}) = 1$ , 所以： $\sum_{c_i \neq \hat{c}} P(c_i | \mathbf{x}) = 1 - P(\hat{c} | \mathbf{x})$ , 于是条件风险为： $R(\hat{c} | \mathbf{x}) = 1 - P(\hat{c} | \mathbf{x})$

要使 $R(\hat{c} | \mathbf{x})$ 最小，需使： $R(\hat{c} | \mathbf{x}) = 1 - P(\hat{c} | \mathbf{x})$ 最小。最小化 $R(\hat{c} | \mathbf{x})$ 等价于最大化 $P(\hat{c} | \mathbf{x})$ , 即： $\hat{c}(\mathbf{x}) = \arg\min_{\hat{c}} R(\hat{c} | \mathbf{x}) = \arg\max_{\hat{c}} P(\hat{c} | \mathbf{x})$ .

这表明，选择使后验概率 $P(\hat{c} | \mathbf{x})$ 最大的类别 $\hat{c}$ ，可以最小化条件风险

由于总体期望风险 $R(\hat{c}) = \mathbb{E}_{\mathbf{x}}[R(\hat{c} | \mathbf{x})]$ ，对每个 $\mathbf{x}$ 选择使 $R(\hat{c} | \mathbf{x})$ 最小的 $\hat{c}$ ，将使整个积分最小。因此， 对每个 $\mathbf{x}$ 选择后验概率最大的类别 ，等价于最小化总体期望风险

第三节极大似然估计方法

原理: 使似然函数达到最大的参数值

假设 $X$ 的密度函数为 $f(W,\beta)$ ,如果简单随机样本 $X_1,X_2,...,X_N)$ 相互独立, 则其联合密度函数为

$L(x_1,x_2,...,x_N)=\prod_{i=1}^Nf(x_i,\beta)$

当 $X_1,X_2,...,X_N)$ 取定值 $x_1,x_2,...,x_N)$ 时, $L(x_1,x_2,...,x_N;\beta)$ 是 $\beta$ 的函数, 即样本的似然函数
$\beta$ 的极大似然估计 $\hat{\beta}=\underset{\beta \in \theta}{argmax}L(x_1,x_2,...,x_N;\beta)$
记似然函数 $L(\beta)=L(x_1,x_2,...,x_N;\beta)$

求解办法:

遍历法: 若参数空间比较少, 可以依次带入找到让似然函数取值最大的那个参数
数值计算法
- 对每个参数 $\beta$ 求偏导, 求出其值
- 若无法求骗到,则可采用迭代法

第四节朴素贝叶斯算法

训练：

计算先验概率

$\frac{\text{类别 } c \text{ 的样本数}}{\text{总样本数}}$
计算条件概率

$P(x_i|c) （一般通过频率估计）$

预测：

对新样本 $x$ 计算每个类别的 $\prod_{i=1}^n P(x_i|c)$
选择最大值对应的类别

第五节贝叶斯估计

贝叶斯估计（Bayesian Estimation）是基于贝叶斯概率理论的一种统计推断方法，用于从观测数据中估计未知参数。它结合了先验知识和观测数据，通过贝叶斯定理更新参数的概率分布。以下是其核心概念的简要介绍：

1. 贝叶斯定理

贝叶斯估计的核心是贝叶斯定理，数学表达式为：

$P(\theta|D) = \frac{P(D|\theta)P(\theta)}{P(D)}$

其中：

$\theta$ ：待估计的参数（如均值、方差等）
$D$ ：观测数据
$P(\theta|D)$ ：后验概率，表示在观测到数据 ( D ) 后，参数 $\theta$ 的概率分布
$P(D|\theta)$ ：似然函数，表示在给定参数 $\theta$ 下观测到数据 ( D ) 的概率
$P(\theta)$ ：先验概率，反映在观测数据之前对参数 $\theta$ 的信念或假设
$P (D)$ ：证据（或边缘概率），是数据的总概率，通常作为归一化常数

2. 贝叶斯估计的步骤

确定先验分布 $P(\theta)$ ：
- 根据领域知识或历史数据，假设参数 $\theta$ 的初始概率分布（如正态分布、均匀分布等)
- 先验可以是信息性先验（基于强假设）或无信息先验（尽量不引入主观偏见）
计算似然函数 $P(D|\theta)$ ：
- 根据观测数据和模型，计算在不同参数值下数据出现的概率
- 例如，若数据服从正态分布，似然函数基于正态分布的概率密度
计算后验分布 $P(\theta|D)$ ：
- 利用贝叶斯定理，将先验和似然结合，得到参数的后验分布
- 后验分布综合了先验知识和观测数据的信息
参数估计：
- 从后验分布中提取点估计（如后验均值、后验中位数或众数）
- 或者提供区间估计（如可信区间，反映参数的不确定性）

3. 贝叶斯估计的特点

结合先验信息：与经典的频率派方法（如最大似然估计）不同，贝叶斯估计允许融入主观或客观的先验知识
概率分布输出：贝叶斯估计不只给出一个点估计，还提供参数的完整概率分布，适合描述不确定性
计算复杂性：后验分布的计算可能涉及复杂的积分，常用数值方法（如马尔可夫链蒙特卡洛MCMC）或共轭先验简化计算
灵活性：适用于小样本数据、复杂模型和非线性问题

4. 与频率派估计的对比

频率派：参数被视为固定值，估计基于数据的似然函数（如最大似然估计），不考虑先验
贝叶斯派：参数被视为随机变量，估计基于后验分布，结合了先验和数据
不确定性表达：贝叶斯方法通过后验分布直接量化不确定性，而频率派通常通过置信区间间接描述

5. 贝叶斯估计的分类应用:

先验概率的贝叶斯估计:

$P_{\lambda}(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i==c_k)+\lambda}{N+K\lambda}$

条件概率的贝叶斯估计:

$P_{\lambda}(X^{(i)}=a_{jl}|Y=c_k) = \frac{\sum_{i=1}^{N}I(x_i^{(j)}==a_{jl},y_i=c_k)+\lambda}{\sum_{i=1}^{N}I(y_i==c_k)+S_j\lambda}$

其中 $S_j$ 表示特征 $X^{(j)}$ 的可能取值数

这可估计在类别 $Y = c_k$ 下，特征 $X^{(j)}$ （第 $j$ 个特征）取值 $a_{jl}$ 的条件概率 $P(X^{(j)} = a_{jl} | Y = c_k)$

当 $\lambda$ 为0是, 是极大似然估计; 当 $\lambda$ 为1时, 称作 拉普拉斯平滑

这里的平滑思想是什么??

对于

$P_{\lambda}(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i==c_k)+\lambda}{N+K\lambda}$

将 $P_{\lambda}(Y=c_k)$ 记为 $\theta_k$ , $\sum_{i=1}^{N}I(y_i==c_k)$ 记为 $N_k$ , 则

$\theta_k(N+K\lambda)=N_k+\lambda$

进一步变形为

$(\theta_kN-N_k)+\lambda(K\theta_k-1)=0$

这里的 $(\theta_kN-N_k)$ 若令它为0, 则 $\theta_k = \frac{N_k}{N}$ , 即为 $\theta$ 的极大似然估计;

若令 $\lambda(K\theta_k-1)$ 为0, 则 $\theta=\frac{1}{K}$ , 为 $\theta$ 的先验估计

平滑公式不仅解决零概率问题，还通过 $\lambda$ 引入了先验信息。 $\lambda$ 可以看作是对先验分布的假设：

若 $\lambda$ 小，先验影响小，估计更接近 MLE
若 $\lambda$ 大，先验影响大，估计更接近先验估计

第六节贝叶斯估计与频率学派

例题 1：均匀分布先验下的贝叶斯估计

$Y$ 分为两类 $c_1$ 和 $c_2$ ，先验参考概率为 $\theta$ ，假设参考概率服从 $[0, 1]$ 上的均匀分布 $U (0, 1)$ ，表示 $\theta$ 的先验为常数
参考概率 $\theta$ 的先验概率密度：
$f(\theta) = 1$
已知 $\theta$ 时 $Y$ 的条件概率模型：
$g(Y|\theta) = \begin{cases} \theta, & Y = c_1 \\ 1-\theta, & Y = c_2 \end{cases}$
求后验概率 $P(\theta|Y)$

解:

根据贝叶斯定理：

$P(\theta|Y) = \frac{P(Y|\theta)P(\theta)}{P(Y)}$

由于 $\theta \sim U(0,1)$ ，其概率密度为：

$P(\theta) = f(\theta) = 1, \quad \theta \in [0,1]$

根据条件概率模型：

若 $Y = c_1$ ，则 $P(Y=c_1|\theta) = \theta$ ；
若 $Y = c_2$ ，则 $P(Y=c_2|\theta) = 1-\theta$ 。

其中 $P (Y)$ 是 $\theta$ 的边缘分布：

$\int_0^1 P(Y|\theta)P(\theta) d\theta$

当 $Y = c_1$ ：
$P(Y=c_1) = \int_0^1 \theta \cdot 1 d\theta = \left[\frac{\theta^2}{2}\right]_0^1 = \frac{1}{2}$
当 $Y = c_2$ ：
$P(Y=c_2) = \int_0^1 (1-\theta) \cdot 1 d\theta = \left[\theta - \frac{\theta^2}{2}\right]_0^1 = 1 - \frac{1}{2} = \frac{1}{2}$

则后验概率:

当 $Y = c_1$ ：
$P(\theta|Y=c_1) = \frac{P(Y=c_1|\theta)P(\theta)}{P(Y=c_1)} = \frac{\theta \cdot 1}{\frac{1}{2}} = 2\theta$
当 $Y = c_2$ ：
$P(\theta|Y=c_2) = \frac{P(Y=c_2|\theta)P(\theta)}{P(Y=c_2)} = \frac{(1-\theta) \cdot 1}{\frac{1}{2}} = 2(1-\theta)$

贝叶斯估计:

当 $Y = c_1$ ，后验密度 $P(\theta|Y=c_1) = 2\theta$ ，在 $\theta \in [0,1]$ 上单调递增，最大值在 $\theta = 1$ ，故 MAP 估计为 $\hat{\theta} = 1$
当 $Y = c_2$ ，后验密度 $P(\theta|Y=c_2) = 2(1-\theta)$ ，单调递减，最大值在 $\theta = 0$ ，故 MAP 估计为 $\hat{\theta} = 0$

频率学派估计 $\theta$ 通常用样本比例：

假设观测到 $n$ 个样本，其中 $n_1$ 个为 $c_1$ ，频率估计为 $\hat{\theta} = \frac{n_1}{n}$ 。
在此例中，仅观测 1 个样本：
- 若 $Y = c_1$ ，频率估计 $\hat{\theta} = 1$ ；
- 若 $Y = c_2$ ，频率估计 $\hat{\theta} = 0$ 。

故有结论：均匀分布先验下的贝叶斯估计（MAP）与频率学派估计一致

例题2: Beta 分布先验下的贝叶斯估计

$Y$ 分为两类 $c_1$ 和 $c_2$ ，先验参考概率为 $\theta$ ，假设参考概率服从 Beta 分布 $Be(\alpha, \beta)$ ，表示 $\theta$ 的先验为 Beta 分布
参考概率 $\theta$ 的先验概率密度：

$f(\theta; \alpha, \beta) = \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1}$

其中 $B(\alpha, \beta) = \int_0^1 t^{\alpha-1} (1-t)^{\beta-1} dt$ 是 Beta 函数
已知 $\theta$ 时 $Y$ 的条件概率模型：

$g(Y|\theta) = \begin{cases} \theta, & Y = c_1 \\ 1-\theta, & Y = c_2 \end{cases}$
求后验概率 $P(\theta|Y)$

解:

后验概率公式:

$P(\theta|Y) = \frac{P(Y|\theta)P(\theta)}{P(Y)}$

先验为 Beta 分布：

$P(\theta) = f(\theta; \alpha, \beta) = \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1}$

若 $Y = c_1$ ， $P(Y=c_1|\theta) = \theta$ ；
若 $Y = c_2$ ， $P(Y=c_2|\theta) = 1-\theta$ 。

P(Y)公式:

$\int_0^1 P(Y|\theta)P(\theta) d\theta$

当 $Y = c_1$ ：

$P(Y=c_1) = \int_0^1 \theta \cdot \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1} d\theta = \frac{1}{B(\alpha, \beta)} \int_0^1 \theta^{\alpha} (1-\theta)^{\beta-1} d\theta$

积分项是 Beta 分布的形式：
$\int_0^1 \theta^{\alpha} (1-\theta)^{\beta-1} d\theta = B(\alpha+1, \beta)$

利用 Beta 函数性质： $\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}$ ，且 $\Gamma(a+1) = a\Gamma(a)$ ，可得：
$B(\alpha+1, \beta) = \frac{\Gamma(\alpha+1)\Gamma(\beta)}{\Gamma(\alpha+\beta+1)} = \frac{\alpha \Gamma(\alpha) \Gamma(\beta)}{(\alpha+\beta) \Gamma(\alpha+\beta)} = \frac{\alpha}{\alpha+\beta} B(\alpha, \beta)$

因此：
$P(Y=c_1) = \frac{1}{B(\alpha, \beta)} \cdot B(\alpha+1, \beta) = \frac{\alpha}{\alpha+\beta}$
当 $Y = c_2$ ：

$P(Y=c_2) = \int_0^1 (1-\theta) \cdot \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1} d\theta = \frac{1}{B(\alpha, \beta)} \int_0^1 \theta^{\alpha-1} (1-\theta)^{\beta} d\theta$

积分项为：
$\int_0^1 \theta^{\alpha-1} (1-\theta)^{\beta} d\theta = B(\alpha, \beta+1) = \frac{\beta}{\alpha+\beta} B(\alpha, \beta)$

因此：
$P(Y=c_2) = \frac{1}{B(\alpha, \beta)} \cdot B(\alpha, \beta+1) = \frac{\beta}{\alpha+\beta}$

计算后验概率:

当 $Y = c_1$ ：

$P(\theta|Y=c_1) = \frac{\theta \cdot \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1}}{\frac{\alpha}{\alpha+\beta}} = \frac{\theta^{\alpha} (1-\theta)^{\beta-1}}{B(\alpha, \beta) \cdot \frac{\alpha}{\alpha+\beta}} = \frac{\theta^{\alpha} (1-\theta)^{\beta-1}}{B(\alpha+1, \beta)}$

这是 $Be(\alpha+1, \beta)$ 的密度形式
当 $Y = c_2$ ：

$P(\theta|Y=c_2) = \frac{(1-\theta) \cdot \frac{1}{B(\alpha, \beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1}}{\frac{\beta}{\alpha+\beta}} = \frac{\theta^{\alpha-1} (1-\theta)^{\beta}}{B(\alpha, \beta) \cdot \frac{\beta}{\alpha+\beta}} = \frac{\theta^{\alpha-1} (1-\theta)^{\beta}}{B(\alpha, \beta+1)}$

这是 $Be(\alpha, \beta+1)$ 的密度形式

最后进行后验估计:

当 $Y = c_1$ ，后验为 $Be(\alpha+1, \beta)$ ，其密度为：
$f(\theta) \propto \theta^{\alpha} (1-\theta)^{\beta-1}$

求导：

$\frac{d}{d\theta} \left[ \theta^{\alpha} (1-\theta)^{\beta-1} \right] = \alpha \theta^{\alpha-1} (1-\theta)^{\beta-1} - (\beta-1) \theta^{\alpha} (1-\theta)^{\beta-2}$

令导数为 0：

$\alpha (1-\theta) - (\beta-1) \theta = 0 \implies \hat{\theta} = \frac{\alpha}{\alpha+\beta-1}$
当 $Y = c_2$ ，后验为 $Be(\alpha, \beta+1)$ ，类似可得：

$\hat{\theta} = \frac{\alpha-1}{\alpha+\beta-1}$

假设 $\alpha = \beta = 1$ （均匀分布特例），则：

$Y = c_1$ 时，后验为 $B e (2, 1)$ ，MAP 估计：

$\hat{\theta} = \frac{1}{1+1-1} = 1$
一般化：若观测 $n$ 个样本， $n_1$ 个 $c_1$ ，后验为 $Be(\alpha+n_1, \beta+n-n_1)$ ，MAP 估计为：

$\hat{\theta} = \frac{\alpha+n_1-1}{(\alpha+n_1-1)+(\beta+n-n_1-1)} = \frac{n_1 + (\alpha-1)}{n + (\alpha+\beta-2)}$

当 $\alpha = \beta = 1$ ：

$\hat{\theta} = \frac{n_1 + 1-1}{n + (1+1-2)} = \frac{n_1}{n}$

与频率估计一致
当 $\alpha = \beta = \lambda+1$ ：

$\hat{\theta} = \frac{n_1 + (\lambda+1-1)}{n + (\lambda+1+\lambda +1-2)} = \frac{n_1 + \lambda}{n + 2\lambda}$

这正是拉普拉斯平滑形式：分子加 $\lambda$ ，分母加特征取值数（此处为 2）乘以 $\lambda$

结论

对于均匀分布先验:

均匀分布 $U (0, 1)$ 是 $B e (1, 1)$ 的特例
贝叶斯估计（MAP）结果为 $\hat{\theta} = \frac{n_1}{n}$ ，与频率学派估计一致
原因：均匀先验不引入额外信息，等价于仅依赖数据似然

对于Beta 分布先验:

一般 Beta 先验 $Be(\alpha, \beta)$ 引入了先验信息
当 $\alpha = \beta = 2$ 时，后验估计为 $\frac{n_1 + 1}{n + 2}$ ，正好是拉普拉斯平滑形式
拉普拉斯平滑可视为贝叶斯估计的特例，先验为 $B e (2, 2)$ ，相当于在频率估计基础上“伪计数”正则化

学的有点懵, 拉个表格清醒一下:

概念	先验估计 (Prior Estimation)	后验估计 (Posterior Estimation)	似然估计 (以 MLE 为代表)	贝叶斯估计 (Bayesian Estimation)
定义	在观测数据前，基于假设或经验对参数的估计	在观测数据后，结合先验和似然计算参数的概率分布	通过最大化似然函数估计参数，仅依赖数据	结合先验和似然，通过后验分布估计参数
依赖数据	不依赖观测数据，仅基于初始假设。	依赖数据和先验，更新后的估计	完全依赖数据，不考虑先验	依赖数据和先验，综合估计
例子	抛硬币估计正面概率 $\theta$ ：假设 $\theta \sim U(0,1)$ ，估计 $\hat{\theta} = 0.5$ （期望）	抛 10 次，8 次正面：先验 $\theta \sim U(0,1)$ ，后验为 $B e t a (9, 3)$ ，MAP 估计 $\hat{\theta} = 0.8$	抛 10 次，8 次正面：似然 $L(\theta) = \theta^8 (1-\theta)^2$ ，MLE 估计 $\hat{\theta} = 0.8$	抛 10 次，8 次正面：先验 $\theta \sim Beta(2, 2)$ ，后验为 $B e t a (10, 4)$ ，MAP 估计 $\hat{\theta} = 0.75$ ，后验均值 $\hat{\theta} = 0.714$
应用场景	- 初始假设设定 - 领域知识引入 - 贝叶斯框架的先验设定	- 贝叶斯分类中的后验概率计算 - 参数更新	- 参数估计（如高斯分布均值） - 朴素贝叶斯中频率估计 - 逻辑回归优化	- 稀疏数据估计 - 朴素贝叶斯中平滑（如拉普拉斯平滑） - 贝叶斯网络参数估计
优缺点	优点：简单，可引入领域知识。缺点：主观性强，可能不准确。	优点：结合数据和先验，更新信念; 缺点：计算复杂，依赖先验选择	优点：简单，仅依赖数据，适合大数据。缺点：数据量少时过拟合，可能导致零概率	优点：引入先验，适合稀疏数据，防过拟合。缺点：计算复杂，依赖先验选择
与贝叶斯框架的关系	提供初始分布 $P(\theta)$ ，是贝叶斯估计的起点	贝叶斯估计的目标，体现“更新”过程	提供似然函数	先验参数贝叶斯公式的一部分，但单独使用时不涉及先验
形象比喻	没抛硬币前，你猜硬币正面概率是 0.5	抛了 10 次后，结合猜测和结果，更新概率为 0.75	只看抛掷结果（10 次 8 正），算概率为 0.8	结合你的猜测（先验）和抛掷结果，综合估计为 0.75