信息论中的熵

导论
热力学中的熵:是表示分子状态混乱程度的物理量。
信息论中的熵:用来描述信源的不确定性大小(信息论创始人香农借用了热力学中熵的概念)。
目前在机器学习、深度学习中经常看到与熵有关的概念。
经常使用的熵概念有下列几种:
信息熵(本节内容)
交叉熵
相对熵
条件熵
互信熵

熵和信息的区别

此刻的你接受着我所产生的文字、图片,但你知道我所传递的内容并不是这些媒介本身,而是信息。我们时时刻刻都在获取信息、讨论信息,然而到底什么是信息?

What’s information?
**香农认为信息是用来消除随机不确定性的东西。**当一随机变量(宏观态)有多种可能事件(微观态)时,该随机变量(宏观态)对某人(观察者)而言,具体是哪种事件(微观态)的不确定性叫做熵,而能够消除该人对该随机变量(宏观态)不确定性的事物叫做信息。熵和信息数量相等,意义相反,获取信息意味着消除不确定性(熵)
信息论中的熵
信息的不确定性如何度量?
信源信息的不确定函数 f 通常满足两个条件:
1)概率p的单调递减函数;
2)两个独立符号所产生的不确定性应等于各自不确定性之和,即
信息论中的熵
(可加性)

对数函数同时满足这两个条件,因此我们用对数函数来衡量这种不确定性,即
信息论中的熵

据此,我们给出信息熵的定义:要考虑信源所有可能发生情况的不确定性,若信源符号有n种取值:信息论中的熵
对应概率为:信息论中的熵
且各种出现彼此独立。此时信源的平均不确定性应为单个符号不确定性-log pi的统计平均值(E),称为信息熵。

例如,当小明不会某道数学选择题时(正确答案为C),正确答案(宏观态)为A、B、C、D(4个微观态)哪个选项的不确定性就是就是熵。
宏观态是不考虑内部细节的状态,而微观态是考虑具体细节的状态,比如生物是宏观态,动物、植物都是生物这个宏观态的微观态。
熵在A、B、C、D所有可能情况(宏观态)都是等概率事件(25%)时,最大;在确定了C(实际事件)是100%后最小。
信息论中的熵信息论中的熵

能消除不确定性的信息有三种类型,他们的本质都是正确调整了每个可能事件(微观态)的概率
信息论中的熵

比如,小红告诉小明,有一半的可能性选C
信息论中的熵

信息论中的熵

又比如,小红告诉小明D选项是错的
信息论中的熵
小红告诉小明正确答案是C,是将C选项的概率调整到了100%
信息论中的熵
小红告诉小明肯定是ABCD里的一项
信息论中的熵
小红告诉小明答案是D(正确答案是C)
信息论中的熵
那些不能消除某人对某件事情的不确定性的事情被称作噪音,噪音是信息获取的干扰

数据=噪音+信息 需要用知识将其分离

同意观察者,对同一件事情接收到的信息与传递信息的信号形式无关。比如小红将写有C的纸条传给小明,提供的信息是2 bits;小红直接告诉小明答案是C,提供的也是2 bits;小红摇晃小明的椅子3次,提供的信息也是2 bits。

概率和熵

概率是某随机变量(宏观态)某个可能事件(微观态)的确定性,而熵是某随机变量(宏观态)到底是哪个情况(微观态)的不确定性。最为重要的一点,信息描述的是一个观察者确定一个宏观态是哪个微观态时需要的物理量,所以信息是相对的。接收到的信息是相对于观察者对该随机变量的了解程度(已知)而言的。小红会这道题,不管告不告诉,小红这道题的正确答案是C,小红对这道题的熵都是0 bit,因为观察者已经拥有了对随机变量的所有信息,不确定性从一开始就不存在;小明不会这道题(由4个等概率情况里确定),熵为2 bits,熵最大;小虎知道D是错的,熵为1.58 bits,因为观察者拥有关于该随机变量的部分信息,熵略小。
虽然信息是相对于观察者而言的,但信息是客观存在的,不随观察者的主观意识而改变,比如小虎认为C是错的,熵不会减少(臆想不会减熵),因为“主观认为C是错的”,并没有实际帮助小虎消除随机变量的不确定性。
“太阳从东边升起”,对于知道的人而言提供了0 bit信息,对于指导或东或西升起的人而言提供了1 bit信息,对觉得东南西北都有可能的人而言,提供了2 bits信息。