信息量与信息熵
看了这篇博客,能对信息量与信息熵有一个清晰地理解
信息量
信息量是衡量信息多少的度量,通俗来说就是衡量一个事件发生的惊奇程度。事件发生的概率越低,该事件发生对应的惊奇程度越高。比如事件“天上下刀子了”就比事件“天上下雨了”更令人惊奇,因为前者的发生概率远远小于后者。
设事件 x x x 的发生概率为 p ( x ) p(x) p(x) ,则传递该事件发生需要的最少比特信号位 (即信息量) 为 log 2 1 p ( x ) = − log 2 p ( x ) \log _2 \frac{1}{p(x)}=-\log _2 p(x) log2p(x)1=−log2p(x)
举个例子,假如有两个相互隔离的房间A、B,二者只能通过01信号传递信息。当A房间投掷了一个硬币时,我们至少需要使用 log 2 2 \log _22 log22 个比特信号告诉B房间是正面朝上还是反面朝上。类似地,当A房间投掷了一个有8个面的骰子时,我们至少需要 log 2 8 \log _28 log28个比特的信号来传递该信息。
信息熵
信息熵用于衡量整个事件空间包含的平均信息量,即信息量的平均期望,等概率分布的随机变量的熵的计算可以表示为:
− log 2 P ( x i ) -\log _2 P\left(x_i\right) −log2P(xi)
那么对于不等概率的分布将如何计算呢?公式中展示出了加权的思想,即把每一个结果都看作等可能事件中的一个结果,按照其发生的概率加权求和
H ( X ) = ∑ i = 1 n P ( x i ) log 2 1 P ( x i ) = − ∑ i = 1 n P ( x i ) log 2 P ( x i ) \begin{aligned} H(X) & =\sum_{i=1}^n P\left(x_i\right) \log _2 \frac{1}{P\left(x_i\right)} \\ & =-\sum_{i=1}^n P\left(x_i\right) \log _2 P\left(x_i\right) \end{aligned} H(X)=i=1∑nP(xi)log2P(xi)1=−i=1∑nP(xi)log2P(xi)
分析一个问题,熵的值是怎么确定的呢?
类似于质量、长度等物理量,信息熵同样作为物理量也需要有一个基本度量单位。类似于光年作为长度单位被定义为光行驶一年的长度,熵的基本单位被定义为等概率分布随机变量的不确定性,记作 b i t bit bit。也就是说抛一枚均匀的硬币,对于哪面朝上这一事件包含的不确定性的量是 1 b i t 1 bit 1bit的熵。
信息量不等于信息熵,信息熵等于平均信息量
互信息与信息熵
互信息指的是两个随机变量之间的关联程度,即给定一个随机变量后,另一个随机变量不确定度的削弱程度。互信息定义为:
I ( X ; Y ) = E [ I ( x , y ) ] = H ( X ) − H ( X ∣ Y ) I(X ; Y)=E[I(x, y)]=H(X)-H(X \mid Y) I(X;Y)=E[I(x,y)]=H(X)−H(X∣Y)
Y Y Y 未知, X X X 的不确定度(熵)为 H ( X ) H(X) H(X)
Y Y Y 已知, X X X 的不确定度变为 H ( X ∣ Y ) H(X \mid Y) H(X∣Y):
互信息 = 先验不确定性-后验不确定性 = 不确定性减少的量
通信系统中若发端的符号为 X X X 收端的符号为 Y Y Y 。如果是一一对应信道 ,接收到 Y Y Y 后对 X X X 的不确定 、性将完全消除,即 H ( X ∣ Y ) = 0 H(X \mid Y)=0 H(X∣Y)=0 ,一般情况 H ( X ∣ Y ) < H ( X ) H(X \mid Y)<H(X) H(X∣Y)<H(X) ,即了解 Y Y Y 后对 X X X 的不确定度将减少。
通过信道传输消除了一些不确定性,获得了一定的信息,故 0 ≤ I ( X ; Y ) ≤ H ( X ) 0 \leq I(X ; Y) \leq H(X) 0≤I(X;Y)≤H(X)
参考:互信息
更多推荐


所有评论(0)