ID3决策树、信息熵、信息增益

本文所用的例子引自《机器学习》，周志华。ID3决策树ID3中的ID，是Iterative Dichotomiser的简称。 ID3是一种经典的基于信息增益的决策树学习算法。信息熵信息熵是度量样本集合纯度最常用的一种指标。假定当前样本集合DDD中第kkk类样本所占的比例为pk(k=1,2,…,∣Y∣)p_k(k=1,2, \ldots,|\mathcal{Y}|)pk(k=1,2,…,∣Y∣)，则

Codefmeister

3255人浏览 · 2021-03-03 21:32:07

Codefmeister · 2021-03-03 21:32:07 发布

本文所用的例子引自《机器学习》，周志华。

ID3决策树

ID3中的ID，是Iterative Dichotomiser的简称。 ID3是一种经典的基于信息增益的决策树学习算法。

信息熵

信息熵是度量样本集合纯度最常用的一种指标。假定当前样本集合 $D$ 中第 $k$ 类样本所占的比例为 $pk(k=1,2,…,∣Y∣)p_k(k=1,2, \ldots,|\mathcal{Y}|)$ ，则 $D$ 的信息熵被定义为：
$\operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|} p_{k} \log _{2} p_{k}$

信息增益

假定离散属性 $a$ 有 $V$ 个可能的取值 ${a1,a2,…,aV}\left\{a^{1}, a^{2}, \ldots, a^{V}\right\}$ , 若使用 $a$ 来对样本集 $D$ 进行划分，则会产生 $V$ 个分支结点，其中第 $v$ 个分支结点包含了 $D$ 中所有在属性 $a$ 上取值为 $a^v$ 的样本，记做 $D^v$ .我们可以根据上式计算出 $D^v$ 的信息熵，考虑到不同分支结点所包含的样本数不同，给分支结点赋予权重 $∣Dv∣/∣D∣\left|D^{v}\right| /|D|$ ，即样本数越多的分支结点影响越大，于是可计算出用属性 $a$ 对样本集 $D$ 进行划分所获得的“信息增益”(information gain)
$\operatorname{Gain}(D, a)=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)$

ID3决策树

ID3决策树使用每次的信息增益来进行决策树的划分属性选择。

举例

以该西瓜集为例：

西瓜集

西瓜显然分为分为好瓜和坏瓜，所以 $∣Y∣=2|\mathcal{Y}|=2$ 。在决策树学习开始阶段，根节点包含所有 $D$ 中的样例，其中正例占 $p1=817p_{1}=\frac{8}{17}$ ，反例占 $p2=917p_{2}=\frac{9}{17}$ 。于是，根据公式可以计算得出根节点的信息熵为：
$\operatorname{Ent}(D)=-\sum_{k=1}^{2} p_{k} \log _{2} p_{k}=-\left(\frac{8}{17} \log _{2} \frac{8}{17}+\frac{9}{17} \log _{2} \frac{9}{17}\right)=0.998$

随后，我们计算当前属性集合{色泽，根蒂，敲声，纹理，脐部，触感}中每个属性的信息增益。我们以属性“色泽”为例，它有3个可能的取值：{青绿，乌黑，浅白}。若使用该属性对 $D$ 进行划分，则可以得到3个子集，分别记为 $D^1$ (色泽=青绿)， $D^2$ （色泽=乌黑）， $D^3$ (色泽=浅白)。

子集 $D^1$ 中包含6个样例，编号为1，4，6，10，13，17。其中正例占 $p1=36p_{1}=\frac{3}{6}$ ，反例占 $p2=36p_{2}=\frac{3}{6}$ 。 $D^2$ 正反例占 $p1=46,p2=26p_{1}=\frac{4}{6}, p_{2}=\frac{2}{6}$ . $D^3$ 正反例占 $p1=15,p2=45p_{1}=\frac{1}{5}, p_{2}=\frac{4}{5}$ 。可以计算出用“色泽”划分后三个分支结点的信息熵：

$\operatorname{Ent}\left(D^{1}\right)=-\left(\frac{3}{6} \log _{2} \frac{3}{6}+\frac{3}{6} \log _{2} \frac{3}{6}\right)=1.000$

$\operatorname{Ent}\left(D^{2}\right)=-\left(\frac{4}{6} \log _{2} \frac{4}{6}+\frac{2}{6} \log _{2} \frac{2}{6}\right)=0.918 \\$

$\operatorname{Ent}\left(D^{3}\right)=-\left(\frac{1}{5} \log _{2} \frac{1}{5}+\frac{4}{5} \log _{2} \frac{4}{5}\right)=0.722$

于是可以计算得到属性“色泽”的信息增益：
$\begin{aligned} \operatorname{Gain}(D, \text { 色泽 }) &=\operatorname{Ent}(D)-\sum_{v=1}^{3} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right) \\ &=0.998-\left(\frac{6}{17} \times 1.000+\frac{6}{17} \times 0.918+\frac{5}{17} \times 0.722\right) \\ &=0.109 . \end{aligned}$

类似的，可以计算出其他属性的信息增益：
$\begin{array}{l} \operatorname{Gain}(D, \text { 根蒂 })=0.143 ; \quad \operatorname{Gain}(D, \text { 敲声 })=0.141 \\ \operatorname{Gain}(D, \text { 纹理 })=0.381 ; \quad \operatorname{Gain}(D, \text { 脐部 })=0.289 \\ \operatorname{Gain}(D, \text { 触感 })=0.006 . \end{array}$

显然，纹理的信息增益最大，应该选择“纹理”作为划分属性。随后依次对纹理划分得到的分支结点递归进行类似上面的计算，不断选择最优属性进行划分，直到递归结束（无属性可用，或样本划分标签一致）

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

ooderAgent 0.6.3 版本新特性深度解析

ooderAgent 0.6.3 版本更新了，这个A2UI的预览版曾经，带来不少的围观。今天0.6.3中确实让引入了，A2UI 但官方更新中，却轻描淡写的，初步整合。我们结合AI强大的分析整理能力为 0.6.3 做一个完整的解读吧。ooderAgent 0.6.3 版本在 A2UI（AI 生成 UI 代码）功能上实现了质的飞跃。新版本不仅提升了图生代码的准确性，更重要的是提供了前所未有的灵活性和扩