用信息论玩猜数字

看到3b1b用信息论玩Wordle，这里写一个玩猜数字的简化版本.用信息论玩猜数字信息论中衡量一个事件的信息是否丰富是从概率出发，在信息论中，1bit的信息量对应着−log⁡212\displaystyle -\log_{2}\frac{1}{2}−log221，意味着，这个事情发生的概率是12\displaystyle \frac{1}{2}21，且发生之后将能够帮助我们筛选掉一半的搜索空

Jie Qiao

4324人浏览 · 2022-02-28 15:42:44

Jie Qiao · 2022-02-28 15:42:44 发布

看到3b1b用信息论玩Wordle，这里写一个玩猜数字的简化版本.

用信息论玩猜数字

信息论中衡量一个事件的信息是否丰富是从概率出发，在信息论中，1bit的信息量对应着 $\displaystyle -\log_{2}\frac{1}{2}$ ，意味着，这个事情发生的概率是 $\displaystyle \frac{1}{2}$ ，且发生之后将能够帮助我们筛选掉一半的搜索空间。

直观来看，如果一个事件发生的概率越小，那么发生之后提供的信息就越多，而如果一个事件是常常发生的，那么其发生之后带来的信息也是不多的。

举个例子，一个猜数字游戏，在1-10中随机选择一个数字，然后每次会告诉你是否猜对，如果没猜对则告诉你比它大还是比它小。假设我们一开始猜5，然后告诉我们比5大，于是这个数字一定是[6,7,8,9,10]之中的一个，因此该事件发生的概率是 $\displaystyle \frac{5}{10}$ ，而该事件蕴含的信息量就是1bit！它成功将空间减少了一半。
那如果比5小呢？意味着数字一定是[1,2,3,4]中的一个，概率是 $\displaystyle \frac{4}{10}$ ，其信息量是 $\displaystyle -\log_{2}\frac{4}{10} =1.321928\ bit$ ，可以发现这个事件缩减的搜索空间更多，因此提供的信息量更大！

最后，如果结果是5猜对了，那么概率是 $\displaystyle \frac{1}{10}$ ，信息量是 $\displaystyle -\log_{2}\frac{1}{10} =3.321928\ bit$ ，是信息量最大的情况，这也是显然的，因为这个事件将搜索空间降低到了只有1个。

所以，就猜5而言，比它小跟比它大又或者猜对了所提供的信息量是不同的，那么这个策略能给我们的平均信息量是多少呢？显然将所有可能根据其发生的概率平均起来，就得到平均的信息量：

$-\frac{1}{2}\log_{2}\frac{1}{2} -\frac{4}{10}\log_{2}\frac{4}{10} -\frac{1}{10}\log_{2}\frac{1}{10} =1.360964\ bit$

而这个就是熵的定义了！

这时候如果我们需要判断，猜哪个数字的决策最好？是不是相当于问，猜哪个数字，将搜索空间平均减少的最多，也就是猜哪个数据的平均信息量（熵）是最大的！因此，用类似的方法，我把所有的猜的数字的熵计算一下，可以得到如下表：

猜哪个数字	熵
1	$-\frac{1}{10}\log_{2}\frac{1}{10} -\frac{9}{10}\log_{2}\frac{9}{10} =0.4689956$
2	$-\frac{1}{10}\log_{2}\frac{1}{10} -\frac{8}{10}\log_{2}\frac{8}{10} -\frac{1}{10}\log_{2}\frac{1}{10} =0.9219281$
3	$-\frac{2}{10}\log_{2}\frac{2}{10} -\frac{7}{10}\log_{2}\frac{7}{10} -\frac{1}{10}\log_{2}\frac{1}{10} =1.15678$
4	$-\frac{3}{10}\log_{2}\frac{3}{10} -\frac{6}{10}\log_{2}\frac{6}{10} -\frac{1}{10}\log_{2}\frac{1}{10} =1.295462$
5	$-\frac{4}{10}\log_{2}\frac{4}{10} -\frac{5}{10}\log_{2}\frac{5}{10} -\frac{1}{10}\log_{2}\frac{1}{10} =1.360964$
6	$-\frac{5}{10}\log_{2}\frac{5}{10} -\frac{4}{10}\log_{2}\frac{4}{10} -\frac{1}{10}\log_{2}\frac{1}{10} =1.360964$
7	$-\frac{6}{10}\log_{2}\frac{6}{10} -\frac{3}{10}\log_{2}\frac{3}{10} -\frac{1}{10}\log_{2}\frac{1}{10} =1.295462$
8	$-\frac{7}{10}\log_{2}\frac{7}{10} -\frac{2}{10}\log_{2}\frac{2}{10} -\frac{1}{10}\log_{2}\frac{1}{10} =1.15678$
9	$-\frac{8}{10}\log_{2}\frac{8}{10} -\frac{1}{10}\log_{2}\frac{1}{10} -\frac{1}{10}\log_{2}\frac{1}{10} =0.9219281$
10	$-\frac{9}{10}\log_{2}\frac{9}{10} -\frac{1}{10}\log_{2}\frac{1}{10} =0.4689956$