统计学习---逻辑斯蒂回归与最大熵模型
逻辑斯蒂回归和最大熵模型
逻辑斯蒂分布
逻辑斯蒂回归模型
将权值向量和输入向量加以扩充后的逻辑斯蒂模型为
模型参数估计
极大似然估计法
最大熵模型
最大熵原理:在所有可能的概率模型中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合。
在满足约束条件的模型集合中选取熵最大的模型。
首先,选择的概率模型必须满足已有的事实,即约束条件。在没有更多信息的情况下,那些不确定的部分都是“等可能”的。最大熵原理通过熵的最大化来表示等可能。“等可能”不容易操作,熵是一个可优化的数值指标。
最大熵模型的定义
最大熵模型的学习等价于约束最优化问题
嗯,按照数学的习惯,最大化问题都换成最小化问题
将约束最优化的原始问题转换为无约束最优化的对偶问题
最大熵模型的学习最后归结为对偶函数的极大化。
这是一个拉格朗日求解的过程,求参数。
极大似然估计
对偶函数的极大化等价于最大熵模型的极大似然估计。
具体求解对数似然函数极大化或对偶函数极大化问题
模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。
算法
改进的迭代尺度法
对数似然函数为:
求对数似然函数的极大值
拟牛顿法