信息论模型-熵问题和互信量

熵(entropy)的定义:

(1)离散熵。 离散型随机变量XX,XX的熵为H(X)=xP(x)log(P(x))H(X)=-\sum_{x}P(x)\log(P(x))
熵的意义在于衡量了变量的不确定性。熵越大,不确定性越大,包含的信息量越大。太阳从东边出来的可能性为1,从西边为0,此时的熵为1log(11)+0log(10)=01*\log(\frac{1}{1})+0*\log(\frac{1}{0})=0,此时变量是非常确定的,而且包含的信息量很小。硬币的正反可能性都是0.5,此时熵为0.5log(10.5)+0.5log(10.5)=1(log=log2)0.5*\log(\frac{1}{0.5})+0.5*\log(\frac{1}{0.5})=1(取\log=\log_{2}),此时两者的概率相同,不确定性最大。
有如下结论:

  • 均匀分布时,熵最大,H(X)=logCH(X)=\log{|C|}
  • 确定分布{0,0,1,...,0}\{0,0,1,...,0\}时,熵最小,H(X)=0H(X)=0

(2)微分熵。是从连续型变量的角度来定义,
H(X)=p(x)logp(x)dx=E[logp(x)]H(X)=-\int_{-\infty}^{\infty}p(x)\log{p(x)}dx=-E[\log{p(x)}]
微分熵并不是严格意义上的信息熵,微分熵的值可正可负,值的范围不确定。但是可以通过微分熵的相对大小去映射熵的相对大小。

最大熵

当根据不完整的信息作为依据进行推断时,应该由满足分布限制条件的
具有最大熵的概率分布推得。可以认为最大熵模型是在已知情况下,对随机变量XX的一种状态的平衡分布,可看作一种自然法则。即假设我们没有对X=0X=0X=1X=1的先验,根据最大熵模型,会得出P(X=0)=P(X=1)=0.5P(X=0)=P(X=1)=0.5,这也符合了一种存在的法则。
在已知均值和方差的情况下,采用最大熵模型,可以推出满足条件的高斯分布。说明高斯分布满足了在已知情况下,对未知的情况下进行的最大限度的平衡,符合自然法则。

互信息论

条件熵:给定随机变量AA后,XX的熵(剩余的不确定性)
H(XY)=yp(y)H(XY=y)=yp(y)xp(xy)logp(xy)=yxp(x,y)logp(xy)H(X|Y)=\sum_{y}p(y)H(X|Y=y)\\ =-\sum_{y}p(y)\sum_{x}p(x|y)\log{p(x|y)}\\ =-\sum_{y}\sum_{x}p(x,y)\log{p(x|y)}
由上式可得,若XXYY独立,则H(XY)=H(X)H(X|Y)=H(X)

联合熵:
H(X,Y)=yxp(x,y)logp(x,y)=yxp(x,y)logp(xy)p(y)=H(XY)+H(Y)=H(YX)+H(X)H(X,Y)=-\sum_{y}\sum_{x}p(x,y)\log p(x,y)\\ =-\sum_{y}\sum_{x}p(x,y)\log p(x|y)p(y) \\ =H(X|Y)+H(Y)=H(Y|X)+H(X)
XYX和Y独立,则p(x,y)=p(x)p(y)H(X,Y)=H(X)+H(Y)p(x,y)=p(x)p(y)\Rightarrow H(X,Y)=H(X)+H(Y)

信息增益(Information gain,IG)
给定随机变量AA后,XX所增加的不确定性
IG(XA)=H(X)H(XA)=H(X)a=1AP(A=a)H(XA=a)IG(X|A)=H(X)-H(X|A)=H(X)-\sum_{a=1}^{|A|}P(A=a)H(X|A=a)
信息论模型-熵问题和互信量
信息增益性质:
IG(AX)=IG(XA)IG(A|X)=IG(X|A)
IG(XX)=H(X)IG(X|X)=H(X)
IG(XA)=H(X)+H(A)H(X,A)IG(X|A)=H(X)+H(A)-H(X,A)