最大熵模型
最大熵(maximum entropy model)由最大熵原理推导实现。这里首先叙述一般的最大熵原理,然后讲解最大熵模型的推导,最后给出最大熵模型学习的形式。
最大熵原理
最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。
最大熵原理也可以表述为在满足约束条件的模型中选取熵最大的模型。
假设离散型随机变量X的概率分步是
熵满足下列不等式:
式中,
当X服从均匀分布时,熵最大。
最大熵模型的定义
最大熵原理应用到分类得到最大熵模型。
假设分类模型是一个条件概率分布
给定一个训练集T,学习的目标是用最大熵原理选择最好的分类模型。
首先考虑模型应该满足的条件。给定训练集,可以确定联合分步
用特征函数(feature function)
特征函数
特征函数
如果模型能够获取训练数据中的信息,那么就可以假设这两个期望值相等,即
或
我们将式(6.10)或式(6.11)作为模型学习的约束条件。假如由n个特征函数
最大熵模型的学习
将约束最优化的原始问题转换为无约束最优化的对偶问题。通过求解对偶问题求解原始问题。
极大似然估计
参考资料