1 方差(Variance)

eg.
某个实验得到两组数据A和B,两组数据的平均值都为3.5,可以说这两组数据的离散程度相差不大吗?

Data A DataB
1 3.5
2 3.5
3 3.5
4 3.5
5 3.5
6 3.5
Total=21 Total=21
Average=3.5 Average=3.5

用以下三个值,来比较两组数据的离散程度。

  1. 【用平均值对每个数据分别求差并加起来】的平均值
  2. 【用平均值对每个数据分别求差并以绝对值方式相加】的平均值
  3. 【用平均值对每个数据分别求差再平方相加】的平均值

1.1【用平均值对每个数据分别求差并加起来】的平均值

下表分别展示了平均值对数据求差,这个差的平均值DataA和DataB都为0.

Data A 平均值的差 Data B 平均值的差
1 2.5 3.5 0
2 1.5 3.5 0
3 0.5 3.5 0
4 -0.5 3.5 0
5 -1.5 3.5 0
6 -2.5 3.5 0
Total=21 Total=0 Total=21 Total=0
Average=3.5 Average=0 Average=3.5 Average=0

这里分别算出的【平均值和各数据的差】,统计学里称之为【偏差】[Deviation]。因为【比平均值大的偏差的和】和【比平均值小的偏差的和】相互抵消掉了,所以偏差的和一般为0。因此,这种方法不能比较数据的离散程度。

1.2【用平均值对每个数据分别求差并以绝对值方式相加】的平均值

为了让比较的值再0以上,把平均值和各数据的差的绝对值相加进行比较。

Data A 平均值差的绝对值 Data B 平均差的绝对值
1 2.5 3.5 0
2 1.5 3.5 0
4 0.5 3.5 0
5 1.5 3.5 0
6 2.5 3.5 0
Total=21 Total=9 Total=21 Total=0
Average=3.5 Average=1.5 Average=3.5 Average=0

比较数据A和B的【平均值和各数据的差的绝对值的平均(偏差的绝对值的平均)】可以看出数据A为1.5比较大,因此我们可以知道Data A的离散程度更大。这个值称之为【平均偏差】(Mean deviation,Average deviation)。

1.3【用平均值对每个数据分别求差再平方相加】的平均值

接下来,将【各数据和平均值的差】进行平方并平均,因为对偏差进行了平方,所以它们的值肯定大于0.这个值称之为【方差】(Variance

σ 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2   . \sigma^2= \frac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\bar x)^2\,. σ2=n1i=1n(xixˉ)2.
按照如下的顺序求Data A和Data B的方差

  1. 求出各数据和平均值的差(偏差)
  2. 对偏差分别进行平方并求和
  3. 对(2)求和结果除以数据个数
Data A 偏差 偏差的平方
1 2.5 6.25
2 1.5 2.25
3 0.5 0.52
4 -0.5 0.52
5 -1.5 2.25
6 -2.5 6.25
Total=21 Total=0 Total=17.5
Average=3.5 - Variance=17.5/6=2.9
Data B 偏差 偏差的平方
3.5 0 0
3.5 0 0
3.5 0 0
3.5 0 0
3.5 0 0
3.5 0 0
Total=21 Total=0 Total=17.5
Average=3.5 - Variance=17.5/6=0

从结果来看,Data A 和Data B的方差如下:

  • Data A的方差: σ A 2 = 2.9 \sigma_A^2=2.9 σA2=2.9
  • Data B的方差: σ B 2 = 0 \sigma_B^2=0 σB2=0

方差可以表示这组数据在平均值周围的离散程度大小。

方差越小,数据收敛在平均值附近,离散程度就小。
方差越大,数据对于平均值的离散程度也就越大。

因此比较两组数据的方差,我们可以知道Data A的数据比B 更分散。


知识共享许可协议
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐