统计学中,无偏估计(Unbiased Estimation)是指对于某个参数的估计量,如果其期望值等于该参数的真实值,则称这个估计量为无偏估计。换句话说,如果多次从同一总体中抽取样本,并使用某种方法来估计参数,那么这些估计值的平均值应该等于该参数的真实值。

θ\thetaθ是想要估计的参数,θ^\hat{\theta}θ^是基于样本数据得到的估计量。如果满足以下条件:

E(θ^)=θ E(\hat{\theta}) = \thetaE(θ^)=θ

则称θ^\hat{\theta}θ^θ\thetaθ的无偏估计。这里E(θ^)E(\hat{\theta})E(θ^)表示估计量θ^\hat{\theta}θ^的期望值。

一个经典的例子是样本均值作为总体均值的无偏估计。假设有一个总体,其均值为μ\muμ,方差为σ2\sigma^2σ2。如果从中随机抽取一个大小为nnn的样本,并计算样本均值xˉ\bar{x}xˉ,那么根据概率论的知识,知道样本均值Xˉ\bar{X}Xˉ的期望值等于总体均值μ\muμ,即:

E(Xˉ)=μ E(\bar{X}) = \muE(Xˉ)=μ

这表明样本均值是总体均值的一个无偏估计。

并非所有常用的统计量都是无偏的。例如,当用样本方差s2s^2s2来估计总体方差σ2\sigma^2σ2时,若不进行贝塞尔修正(Bessel’s correction),即除以nnn而不是n−1n-1n1,则样本方差将是一个有偏估计。为了获得无偏估计,需要采用贝塞尔修正,即使用下面的公式来计算样本方差:

s2=1n−1∑i=1n(Xi−Xˉ)2 s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2s2=n11i=1n(XiXˉ)2

这样计算出来的样本方差是总体方差的无偏估计。理解无偏性有助于选择合适的统计方法,从而确保的分析结果尽可能准确地反映真实情况。

机器学习中涉及的统计量普遍是选择一个方向,所以并不关注前面的系数,除以nnn或者n−1n-1n1,或者没有系数,不影响最终计算的方向。另外,经常有偏比无偏有更好的性质,且在样本数充分大时,有偏则渐进无偏,所以在实际的应用中,经常会使用有偏估计。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐