最大熵模型——数学模型
【最大熵模型】
【最大熵原理】
不再赘述最大熵原理,简言之,最大熵原理认为所选择的模型必须满足约束条件,不确定的部分都认为是等可能的。利用熵的最大化实现等可能的表示。
【最大熵模型的定义】
最大熵模型,顾名思义就是将最大熵原理应用到分类训练出的模型。
【分类模型】 条件概率分布
【输入】
【输出】
【模型表示】对于给定的输入X以条件概率输出Y。
【学习目标】对于给定训练数据集 运用最大熵原理选择最好的分类模型。
补充知识:【经验分布函数】
【模型满足条件】
(1)对于给定数据集T,确定联合分布和边缘分布
的经验分布,分别记为
,
其中,表示数据集中样本(x,y)出现的频数,N 表示训练样本容量。
【特征函数】
为二值函数,x与y满足事实时为1,否则为0.
【】
特征函数关于经验分布
的期望值。
【】
特征函数关于模型
与经验分布
的期望值。
如果模型能够获取训练数据集中的信息,就可以假设这两个期望值相等。即:
(1.1)
或
(1.2)
将(1.1)或者(1.2)作为学习的约束条件。
【补充 】
联合概率,边缘概率,条件概率之间的关系
【最大熵模型】
【约束条件】
【条件熵】
在条件概率分布上的条件熵
公式中的对数为自然对数。
模型集合C中条件熵最大的模型称为最大熵模型。
【最大熵模型的学习】
对于给定的数据集,特征函数
,i=1,2,...n。
最大熵模型的学习过程可以等价于约束条件的最优化。
最优化习惯:将最大化问题转换为最小化问题。
求解最优化问题即求出上述三个式子的解。
求解步骤:
(1)引进拉格朗日函数
原始问题:
对偶问题:
因为拉格朗日函数是P 上的凸函数,所以求解对偶问题与求解原始问题是等价的。
(2)求解内部极小化问题
是w的函数
记为
其解记为
接下来求解L对 P(y|x)的偏导数,如下:
令偏导等于0,在 的情况下,解得:
因为
所以
即
得到 :
, (1.3)
其中,
(1.4)
由公式(1.3)(1.4)表示的模型就是最大熵模型,其中
为规范化因子,
为特征函数,
为特征的权值。
(3)求解对偶问题外部的极大化问题
其解记为:
其中
也就是说最大熵模型的学习归结到对对偶函数的极大化问题。
求解出的解
,用来表示
,也就得到最大熵模型
【例题】
最优化问题为:
(1) 拉格朗日函数
对偶问题:
(2)求内部极小化问题
解对P的偏导数:
令各偏导数等于0得到:
得到:
即:
(3)求的外部极大化问题
求解:
分别对求偏导数
令上述偏导数为0,得到:
即可利用最大熵模型求得所求概率: