关于类间方差和类内方差,总方差关系的证明

对于给定的数据样本,将其分为两类:AAABBB。若记总方差为σtotal2\sigma_{total}^2σtotal2,类内方差和为σintra2\sigma_{intra}^2σintra2和类间方差和为σinter2\sigma_{inter}^2σinter2,那么下式成立:
σtotal2=σinter2+σintra2(1) \sigma_{total}^2 = \sigma_{inter}^2 + \sigma_{intra}^2 \tag{1} σtotal2=σinter2+σintra2(1)
在证明之前,需要注意该等式适用的是偏差平方和,而不是偏差平方和的平均值。
yijy_{ij}yij是第iii类的第jjj个样本,那么所以样本的均值为:
y‾∙∙=∑i∑jyij∑i∑j1(2) \overline{y}_{\bullet \bullet} = \frac{\sum_i \sum_j y_{ij}}{\sum_i \sum_j 1} \tag{2} y=ij1ijyij(2)
iii类的样本平均值为:
y‾i∙=∑j∑jyij∑i∑j1(3) \overline{y}_{i \bullet} = \frac{\sum_j \sum_j y_{ij}}{\sum_i \sum_j 1} \tag{3} yi=ij1jjyij(3)
其中,jjj的值依赖于类别iii,即并非所有类中的样本数目相同。
那么总方差σtotal2\sigma_{total}^2σtotal2为:
σtotal2=∑i∑j(yij−y∙∙)2(4) \sigma_{total}^2 = \sum_i\sum_j(y_{ij} - y_{\bullet \bullet})^2 \tag{4} σtotal2=ij(yijy)2(4)
类内方差和σintra2\sigma_{intra}^2σintra2为:
σintra2=∑i∑j(yij−y‾i∙)2(5) \sigma_{intra}^2 = \sum_i\sum_j(y_{ij} - \overline{y}_{i\bullet})^2 \tag{5} σintra2=ij(yijyi)2(5)
类间方差和σinter2\sigma_{inter}^2σinter2为:
σinter2=∑i∑j(y‾i∙−y‾∙∙)2(6) \sigma_{inter}^2 = \sum_i\sum_j(\overline{y}_{i\bullet} - \overline{y}_{\bullet \bullet})^2 \tag{6} σinter2=ij(yiy)2(6)
其中,nin_ini为第iii类的样本数目。
由于:
(yij−y∙∙)2=[(yij−y‾i∙)+(y‾i∙−y∙∙)]2=(yij−y‾i∙)2+2(yij−y‾i∙)(y‾i∙−y∙∙)+(y‾i∙−y∙∙)2(7) \begin{aligned} (y_{ij} - y_{\bullet \bullet})^2 &= [(y_{ij}-\overline{y}_{i\bullet}) + (\overline{y}_{i\bullet} -y_{\bullet \bullet})]^2 \\ & = (y_{ij}-\overline{y}_{i\bullet})^2 + 2(y_{ij}-\overline{y}_{i\bullet})(\overline{y}_{i\bullet} -y_{\bullet \bullet}) + (\overline{y}_{i\bullet} -y_{\bullet \bullet})^2 \end{aligned} \tag{7} (yijy)2=[(yijyi)+(yiy)]2=(yijyi)2+2(yijyi)(yiy)+(yiy)2(7)
故只需证明中间项求和为000.
注意到(y‾i∙−y∙∙)(\overline{y}_{i\bullet} -y_{\bullet \bullet})(yiy)只与iii有关,故可以将求和符号进行交换,且yi∙=niy‾i∙y_{i\bullet} = n_i \overline{y}_{i\bullet}yi=niyi,则:
2∑i∑j(yij−y‾i∙)(y‾i∙−y∙∙)=2∑i(y‾i∙−y∙∙)∑j(yij−y‾i∙)=2∑i(y‾i∙−y∙∙)(yi∙−niy‾i∙)=0(8) \begin{aligned} 2\sum_i\sum_j(y_{ij}-\overline{y}_{i\bullet})(\overline{y}_{i\bullet} -y_{\bullet \bullet}) &= 2\sum_i (\overline{y}_{i\bullet} -y_{\bullet \bullet})\sum_j(y_{ij} - \overline{y}_{i\bullet}) \\ & = 2\sum_i (\overline{y}_{i\bullet} -y_{\bullet \bullet})(y_{i\bullet} - n_i \overline{y}_{i\bullet}) \\ & = 0 \end{aligned} \tag{8} 2ij(yijyi)(yiy)=2i(yiy)j(yijyi)=2i(yiy)(yiniyi)=0(8)
交叉项求和为000,还反映了两个向量正交。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐