【统计学习方法】第六章 逻辑回归与最大熵模型

基础概念

逻辑回归与最大熵模型都属于对数线性模型

 

第六章 逻辑回归与最大熵模型

 

1. 逻辑回归模型

1.1 逻辑斯谛分布

【统计学习方法】第六章 逻辑回归与最大熵模型

1.2 二项逻辑斯谛回归模型

二项逻辑回归模型是一种分类模型,描述的是条件概率分布P(YX)P(Y|X),随机变量X取值为实数,随机变量Y取值为0或1,逻辑回归模型是如下的条件概率分布:(有时为了简单,也直接把wx+bwx+b简写成wxwx
P(Y=1x)=exp(wx+b)1+exp(wx+b)P(Y=1|x)=\frac{exp(wx+b)}{1+exp(wx+b)}
P(Y=0x)=11+exp(wx+b)P(Y=0|x)=\frac{1}{1+exp(wx+b)}
逻辑回归比较两个条件概率值的大小,将实例x分到概率值较大的那一类。

现在考虑逻辑回归的特点:
一个事件的几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。如果事件发生的概率是p,那么该事件的几率是p1p\frac{p}{1-p},改时间的对数几率(log odds)或logit函数是:
logit(p)=logp1plogit(p)=log\frac{p}{1-p}
对逻辑回归而言,
logP(Y=1x)1P(Y=1x)=wxlog\frac{P(Y=1|x)}{1-P(Y=1|x)}=wx
也就是说,在逻辑回归模型中,输出Y=1Y=1的对数几率是输入x的线性函数。或者说,输出Y=1Y=1的对数几率是由输入x的线性函数表示的模型,即逻辑回归模型。

1.3 模型参数估计

逻辑回归模型学习时,对于给定的训练集T=(x1,y1),(x2,y2),...,(xN,yN)T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)},可以用极大似然估计法来估计模型参数,从而得到逻辑回归模型。
步骤:

  1. 写出似然函数(或对数似然函数)
  2. 问题转换成了以似然函数(对数似然函数)作为目标函数的最优化问题,使用梯度下降法拟牛顿法求解。
  3. 得到模型参数的估计值后,代入逻辑回归模型。

1.4 多项逻辑斯谛回归

前面的模型是二分类模型,可以推广为多分类模型,假设随机变量Y的取值集合为1,2,3,...K{1,2,3,...K},多项逻辑回归模型是:
P(Y=kx)=exp(wk)1+k=1K1exp(wkx)P(Y=k|x)=\frac{exp(w_k)}{1+\sum_{k=1}^{K-1}exp(w_kx)}
P(Y=Kx)=11+k=1K1exp(wkx)P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}exp(w_kx)}

 

2. 最大熵模型

最大熵原理:在满足约束条件的模型集合中,选取熵最大的模型
最大熵模型的定义:首先确定所有约束条件的模型集合,然后定义条件熵,在模型集合中,条件熵最大的模型称为最大熵模型。
对偶函数的极大化等价于最大熵模型的极大似然估计。

 

3. 模型学习的最优化算法(略)

3.1 改进迭代尺度法

3.2 拟牛顿法