信息熵(information entropy)是度量样本集合纯度/不确定度最常用的指标之一。
但要注意,信息熵越小,表示不确定度越低,确定度越高,纯度越高
Ent(D)=−∑k=1∣γ∣pklog2pkEnt(D)=-\sum_{k=1}^{|\gamma|}{p_klog_2p_k}Ent(D)=k=1γpklog2pk

信息熵是对信息量的度量。越小概率的事情发生所产生的信息量越大。
信息量的公式表示如下:
h(x)=−log2p(x)h(x)=-log_2p(x)h(x)=log2p(x)

由于概率范围为0-1,因此log2p(x)的范围在负无穷到0,而负号则让信息量变成正数。正好可以得出,一件事情发生的概率越小,信息量越大。
而信息熵则代表了多件不相关的事件发生所产生的信息量之和。

信息增益(information gain) 代表的是在一个条件下,信息复杂度(不确定性)减少的程度,也即纯度提高的程度。
Gain(D,a)=Ent(D)−∑Vv=1∣Dv∣DEnt(Dv)Gain(D, a)=Ent(D)-\sum_{V}^{v=1}{\frac{|D^v|}{D}Ent(D^v)}Gain(D,a)=Ent(D)Vv=1DDvEnt(Dv)
信息增益越大,表示信息的不确定度降低的越多,即信息的纯度越高。
在决策树的ID3算法中,追求的是信息熵越小越好,信息增益越大越好。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐