最大熵模型理解与补充

关于最大熵模型，看了一些作者的文章，感觉写的已经很好了，我觉得没有必要再写一遍了，本文给出相应连接，供读者参考，另外增加一些个人理解，使得读者在部分模糊位置可以更直观的了解。

由于引用了好几个大佬的文章，所以看着就很杂，希望读者沉住气，一天看不下去，先放下，明天再看。

另外公式太难敲了，为了增加书写的效率。这里引用别人公式的图片。

参考链接：

https://www.cnblogs.com/ooon/p/5677098.html

https://blog.csdn.net/ccblogger/article/details/81843304

作者这部分:

MaxEnt 模型的求解

MaxEnt 模型最后被形式化为带有约束条件的最优化问题，可以通过拉格朗日乘子法将其转为无约束优化的问题，引入拉格朗日乘子：

最大熵模型理解与补充，定义朗格朗日函数 L(P,w):

最大熵模型理解与补充

现在问题转化为: 最大熵模型理解与补充，拉格朗日函数 L(P,w) 的约束是要满足的，如果不满足约束的话，只需令，则可得，因为需要得到极小值，所以约束必须要满足，满足约束后可得：，现在问题可以形式化为便于拉格朗日对偶处理的极小极大的问题：

（个人理解：

最大熵模型：其模型最终的目的是，在最大程度满足约束条件的影响下，使得熵最大。

L(P,w)是熵和约束条件组成的拉格朗日函数，该函数要达到的目的是：

1、满足H(P)也就是熵越大，相反加上负号，要满足-H(P)最小，也就是P在满足C约束条件下，使得H(P)最小，在加上w限制条件下，使得L(P,w)最小。

2、使得，在w的所有参数中，找到一个w，使得w参数所限制的约束条件部分f(x,y)最大，这句话的意思是，找到一个w使得最大程度上满足所有约束条件。找到一个w参数使得约束条件部分最大，约束条件满足的越多。

最终的理解就是，找到一个w，在满足约束条件最多的情况下，让-H(P)+约束部分，也就是L(P,w)最小，从而可以得到-H(P)最小，H(P)最大，也就是熵最大，除了约束条件外的分布越均匀。

）

最大熵模型理解与补充

由于 L(P,w)是关于 P 的凸函数，根据拉格朗日对偶可得 L(P,w)的极小极大问题与极大极小问题是等价的：

(对偶参考文章：https://www.cnblogs.com/90zeng/p/Lagrange_duality.html，这部分详细讲解了对偶条件写的很好。)

最大熵模型理解与补充

现在可以先求内部的极小问题最大熵模型理解与补充得到的解为关于 w 的函数，可以记做 Ψ(w) ：

(这里理解为，φ(w)是关于w的函数，该函数是随着w的变化，L(p,w)在变化的函数)

最大熵模型理解与补充

上式的解最大熵模型理解与补充可以记做：

(而该函数指的是，通过w的变化，在所有w中找到了一个使得在w的约束下L(P,w)最大，也就是找到一个w使得最大程度满足约束条件。找到最优的w之后，要最小化-H(x)使得整体最小，通过寻找P的最优解，来得到整体L(P,w)最优解，所有下面的式子代表找到最优w使得约束部分最大的情况下，最优的P是Pw，更深入理解可以看之前链接部分给的对偶条件讲述部分)

最大熵模型理解与补充