统计学习方法:逻辑斯蒂回归与最大熵模型 (六)

逻辑斯蒂回归模型 logistic regression

逻辑斯蒂分布函数 logistic distribution    对应下面两张示意图摘自*

统计学习方法:逻辑斯蒂回归与最大熵模型 (六)统计学习方法:逻辑斯蒂回归与最大熵模型 (六)

逻辑斯蒂密度函数

统计学习方法:逻辑斯蒂回归与最大熵模型 (六)统计学习方法:逻辑斯蒂回归与最大熵模型 (六)


二项回归模型:将x对应的样本归于概率值较大的分类

统计学习方法:逻辑斯蒂回归与最大熵模型 (六)

事件的几率:事件发生的概率与不发生的概率的比值       对数几率:几率的对数      逻辑斯蒂回归输出Y=1的对数几率为wx+b,即输入x的线性函数。     线性函数值越接近正无穷,概率值越接近1;线性函数值越接近负无穷,概率值越接近0。


参数估计:可使用极大似然估计估计参数

假设统计学习方法:逻辑斯蒂回归与最大熵模型 (六)

那么,对于一个输入xi得到输出yi的概率为统计学习方法:逻辑斯蒂回归与最大熵模型 (六)

所以产生一个长度为N的序列的似然函数 (也就是能够得到这样一个序列的概率)为

统计学习方法:逻辑斯蒂回归与最大熵模型 (六)

求对数后求极大值,即可得到w的估计值。


多项逻辑回归:如果离散输出一共有1到K共K种取值,那么对应每一个输出的概率为:

统计学习方法:逻辑斯蒂回归与最大熵模型 (六)

统计学习方法:逻辑斯蒂回归与最大熵模型 (六)

逻辑回归这个概念中虽然带有回归这个词,但是不是回归模型,只能用于分类。命名中的回归代表的只是在拟合曲线时使用了回归的思想。和逻辑回归有关的特征选择、特征离散化可参见我另一篇转载的博文


优点:可用于概率预测,也可用于分类;计算代价不高,易于理解和实现。

缺点:容易欠拟合,分类精度不高。


各feature之间不需要满足条件独立假设(相比朴素贝叶斯),但各个feature的贡献是独立计算的(相比决策树)。相比于决策树,注重一个样本的总体特征表现。


最大熵模型

最大熵原理:学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。也就是说,在满足约束条件的模型集合中选取熵最大的模型。   而随机变量服从均匀分布时,熵是最大的。也就是说,在满足约束后,越是能保证剩下的不确定部分等概率,这样的模型越好,所以需要熵最大化。


模型学习:使用拉格朗日求解统计学习方法:逻辑斯蒂回归与最大熵模型 (六)

统计学习方法:逻辑斯蒂回归与最大熵模型 (六)