最大熵模型

最大熵原理是概率模型学习的一个准则。
评价一个模型的好坏是根据熵的大小，熵大说明模型越好。因此可以理解，最大熵原理就是满足一定的约束条件下，选择熵最大的模型。

计算最大熵：两个前提问题：

解决问题要满足一定约束

不做任何假设，就是在约束外的事件发生概率为等概率

举个栗子：

（1）假设随机变量X有5个取值｛A,B,C,D,E｝；估计各个值概率P(A),P(B),P(C),P(D),P(E)。

从上述的已知条件，P(A)＋P(B)＋P(C)＋P(D)＋P(E)＝1（约束）

根据最大熵的前提条件，假定：P(A)＝P(B)＝P(C)＝P(D)＝P(E)＝1/5（等概率）

（2）假设随机变量X有5个取值｛A,B,C,D,E｝，其中，P(A)+P(B)=3/10。估计各个值的概率。

如题可以知道：P(A)＋P(B)＋P(C)＋P(D)＋P(E)＝1（约束）

P(A)+P(B)=3/10（约束）

从约束中根据等概率，我们可以推测，P(A) = P(B) = 3/20, P(C)=P(D)=P(E)=7/30

现在，知道了最大熵原理，我们可以过渡到最大熵模型了。

最大熵模型其实就是最大熵原理应用到分类问题中。
最大熵模型的学习就是在一定约束条件下求解出最大熵H(P)：