统计学习方法：逻辑斯蒂回归与最大熵模型 (六)

逻辑斯蒂回归模型 logistic regression

逻辑斯蒂分布函数 logistic distribution 对应下面两张示意图摘自*

逻辑斯蒂密度函数

二项回归模型：将x对应的样本归于概率值较大的分类

事件的几率：事件发生的概率与不发生的概率的比值对数几率：几率的对数逻辑斯蒂回归输出Y=1的对数几率为wx+b，即输入x的线性函数。线性函数值越接近正无穷，概率值越接近1；线性函数值越接近负无穷，概率值越接近0。

参数估计：可使用极大似然估计估计参数

假设统计学习方法：逻辑斯蒂回归与最大熵模型 (六)

那么，对于一个输入xi得到输出yi的概率为统计学习方法：逻辑斯蒂回归与最大熵模型 (六)

所以产生一个长度为N的序列的似然函数（也就是能够得到这样一个序列的概率）为

统计学习方法：逻辑斯蒂回归与最大熵模型 (六)

求对数后求极大值，即可得到w的估计值。

多项逻辑回归：如果离散输出一共有1到K共K种取值，那么对应每一个输出的概率为：

统计学习方法：逻辑斯蒂回归与最大熵模型 (六)

逻辑回归这个概念中虽然带有回归这个词，但是不是回归模型，只能用于分类。命名中的回归代表的只是在拟合曲线时使用了回归的思想。和逻辑回归有关的特征选择、特征离散化可参见我另一篇转载的博文。

优点：可用于概率预测，也可用于分类；计算代价不高，易于理解和实现。

缺点：容易欠拟合，分类精度不高。

各feature之间不需要满足条件独立假设(相比朴素贝叶斯)，但各个feature的贡献是独立计算的(相比决策树)。相比于决策树，注重一个样本的总体特征表现。

最大熵模型

最大熵原理：学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。也就是说，在满足约束条件的模型集合中选取熵最大的模型。而随机变量服从均匀分布时，熵是最大的。也就是说，在满足约束后，越是能保证剩下的不确定部分等概率，这样的模型越好，所以需要熵最大化。

模型学习：使用拉格朗日求解统计学习方法：逻辑斯蒂回归与最大熵模型 (六)

统计学习方法：逻辑斯蒂回归与最大熵模型 (六)