最大熵模型理解与补充

关于最大熵模型,看了一些作者的文章,感觉写的已经很好了,我觉得没有必要再写一遍了,本文给出相应连接,供读者参考,另外增加一些个人理解,使得读者在部分模糊位置可以更直观的了解。

由于引用了好几个大佬的文章,所以看着就很杂,希望读者沉住气,一天看不下去,先放下,明天再看。

另外公式太难敲了,为了增加书写的效率。这里引用别人公式的图片。

参考链接:

https://www.cnblogs.com/ooon/p/5677098.html

https://blog.csdn.net/ccblogger/article/details/81843304

作者这部分:

MaxEnt 模型的求解

MaxEnt 模型最后被形式化为带有约束条件的最优化问题,可以通过拉格朗日乘子法将其转为无约束优化的问题,引入拉格朗日乘子:

最大熵模型理解与补充, 定义朗格朗日函数 L(P,w):

最大熵模型理解与补充

现在问题转化为: 最大熵模型理解与补充 ,拉格朗日函数 L(P,w) 的约束是要满足的 ,如果不满足约束的话,只需令最大熵模型理解与补充,则可得最大熵模型理解与补充,因为需要得到极小值,所以约束必须要满足,满足约束后可得: 最大熵模型理解与补充 ,现在问题可以形式化为便于拉格朗日对偶处理的极小极大的问题:

(个人理解:

最大熵模型:其模型最终的目的是,在最大程度满足约束条件的影响下,使得熵最大。

L(P,w)是熵和约束条件组成的拉格朗日函数,该函数要达到的目的是:

1、满足H(P)也就是熵越大,相反加上负号,要满足-H(P)最小,也就是P在满足C约束条件下,使得H(P)最小,在加上w限制条件下,使得L(P,w)最小。

最大熵模型理解与补充

2、使得最大熵模型理解与补充,在w的所有参数中,找到一个w,使得w参数所限制的约束条件部分f(x,y)最大,这句话的意思是,找到一个w使得最大程度上满足所有约束条件。找到一个w参数使得约束条件部分最大,约束条件满足的越多。

最终最大熵模型理解与补充的理解就是,找到一个w,在满足约束条件最多的情况下,让-H(P)+约束部分,也就是L(P,w)最小,从而可以得到-H(P)最小,H(P)最大,也就是熵最大,除了约束条件外的分布越均匀。

                                                                     最大熵模型理解与补充

由于 L(P,w)是关于 P 的凸函数,根据拉格朗日对偶可得 L(P,w)的极小极大问题与极大极小问题是等价的:

(对偶参考文章:https://www.cnblogs.com/90zeng/p/Lagrange_duality.html,这部分详细讲解了对偶条件写的很好。)

最大熵模型理解与补充

现在可以先求内部的极小问题最大熵模型理解与补充得到的解为关于 w 的函数,可以记做 Ψ(w) :

(这里理解为,φ(w)是关于w的函数,该函数是随着w的变化,L(p,w)在变化的函数)

最大熵模型理解与补充

上式的解 最大熵模型理解与补充 可以记做:

(而该函数指的是,通过w的变化,在所有w中找到了一个使得在w的约束下L(P,w)最大,也就是找到一个w使得最大程度满足约束条件。找到最优的w之后,要最小化-H(x)使得整体最小,通过寻找P的最优解,来得到整体L(P,w)最优解,所有下面的式子代表找到最优w使得约束部分最大的情况下,最优的P是Pw,更深入理解可以看之前链接部分给的对偶条件讲述部分)

最大熵模型理解与补充

 

最大熵模型和MLE之间的关系:

通过看链接中的公式可以知道:

两者最终的目标函数是相同的,这说明什呢。

最大熵模型是说,在满足约束条件的情况下(也就是在确定某些条件下,如在判断是否降温的模型中,如果下雨那么一定降温的可能性1/2,这就是约束条件),除去约束条件外,无偏对待不确定性(刮风,阴天等等条件使得降温这一条件发生的概率是相同的即刮风和阴天概率都是1/4)

MLE(极大似然估计),在符合样本分布的情况下(在约束条件下模型的分布),什么样的天气分布才是概率最高(最有可能描述降温这一事实)的情况,也就是说(如果下雨一定降温的可能性是1/2,那么其他天气概率为1/4的时候可以最大程度描述天气降温这一情况)。

所以最终证明了,最大熵的解同时是最符合样本数据分布的解。

熵:不确定度

似然:与知识的吻合程度

最大熵模型:对不确定度的无偏分配

极大似然估计:对知识的无偏理解

知识==不确定度的补集

也就是说知识之外就是我们不确定的东西,不确定的东西可能发生的概率相同。

(就像薛定谔的猫,我们的知识只知道是一个盒子,那么不确定度就是盒子里有没有猫,有还是没有发生的概率是相同的)

关于IIS (Improved Iterative Scaling),改进的迭代尺度算法

 

最大熵模型理解与补充

因为没有显式的解析解,因此要使用优化算法逐渐变化λ,慢慢逼近最优解。

对于最大熵模型最优解pλ的求解过程,提出的IIS优化算法要由于梯度下降算法,因此再最大熵模型获取最优值的过程中,应用的是IIS优化算法。

IIS的思想是:

假设最大熵模型当前的参数向量是λ,希望找到新的参数向量λ+δ,使得模型的对数似然函数L增加。重复这一过程直到找到对数似然函数的最大值,找到似然函数的最大值就相当于找到最优的P的解,从而就找到了最大熵的最优解,因为MLE和最大熵模型的解是相同的。

推导如下:

最大熵模型理解与补充

最大熵模型理解与补充

这里用了JENSEN不等式第二公式:

最大熵模型理解与补充

最大熵模型理解与补充最大熵模型理解与补充
最大熵模型理解与补充
由于
 

最大熵模型理解与补充

所以推出

最大熵模型理解与补充

前面有负号所以变成了大于等于。

这套推导的目的是找出增加δ后极大似然变化的值(接近真实变化值的下确界,推导出来的接近真实值得最小值)

可以想象,如果未知数δ变化,那么极大似然对应的值也是变化的。

因为极大似然求取的函数是有极值的,而极值得选取与δ有关,因此找到一个δ使得L为最大,也即L(λ+δ)-L(λ)最大。

因此对δ进行求导,目的为了找到一个δ使得函数取极值。

最大熵模型理解与补充

可以看到前面部分是

最大熵模型理解与补充

如果最大熵模型理解与补充是常数,那么

最大熵模型理解与补充

如果最大熵模型理解与补充是变量,例如是关于δ的某种函数。

最大熵模型理解与补充

转换为求

最大熵模型理解与补充

此时的最大熵模型理解与补充已经对δ求了一次导,因此可以使用牛顿法求解最优δ。

最大熵模型理解与补充

为了进一步优化,可以使用BFGS或者L-BFGS

最终附上书上写的内容,从其他文章中截取的:

最大熵模型理解与补充