统计学习方法(三)--逻辑回归(Logistic Regression)理解

逻辑回归

逻辑回归是一种经典的分类方法,属于判别模型。

逻辑斯蒂分布

XX是连续随机变量,XX服从逻辑斯蒂分布是指XX具有以下分布函数:
F(x)=P(Xx)=11+ex F(x)=P(X\leq x)=\frac{1}{1+e^{-x}}
分布函数F(x)F(x)又可称为Sigmoid函数,函数图形如下图所示:
统计学习方法(三)--逻辑回归(Logistic Regression)理解

二项逻辑回归模型

二项逻辑回归模型是一种分类模型,由条件概率分布P(YX)P(Y|X)表示。随机变量XX取值为实数,随机变量Y取值为1或0。

二项逻辑回归模型的条件概率分布:
P1=P(Y=1X)=exp(wx+b)1+exp(wx+b) P_{1}=P(Y=1|X)=\frac{\exp(w\cdot x+b)}{1+\exp(w\cdot x+b)}
P0=P(Y=0X)=11+exp(wx+b) P_{0}=P(Y=0|X)=\frac{1}{1+\exp(w\cdot x+b)}
逻辑回归比较两个条件概率值的大小,将实例xx分类到概率值较大的那一类。
综合以上条件概率分布可将模型表示为以下函数:
P(YX)=P1P0=P(Y=1X)YP(Y=0X)1Y P(Y|X)=P_{1}P_{0}=P(Y=1|X)^{Y}P(Y=0|X)^{1-Y}
通过逻辑回归模型可以将线性函数wxw\cdot x转换为概率,线性函数的值越接近正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0.

模型参数估计

逻辑回归模型学习时,可以应用极大似然估计法估计模型参数,从而得到逻辑回归模型。假设ww的极大似然估计是w^\hat{w},且数据样本之间是独立同分布的,故有
w^=arg maxwlogP(YX)=arg maxwlogi=1NP(yixi)()=arg maxwi=1NlogP(yixi)=arg maxwi=1N(yilogP1+(1yi)logP0) \begin{aligned} \hat{w}&=\argmax_{w}\log P(Y|X)\\ &=\argmax_{w}\log\prod_{i=1}^{N}P(y_{i}|x_{i})\quad (独立同分布)\\ &=\argmax_{w}\sum_{i=1}^{N}\log P(y_{i}|x_{i})\\ &=\argmax_{w}\sum_{i=1}^{N}(y_{i}\log P_{1}+(1-y_{i})\log P_{0}) \end{aligned}
这样问题就变成了对数似然函数为目标函数的最优化问题。逻辑回归学习中通常采用的方法是梯度下降法及拟牛顿法。

多项逻辑回归

可将二项的逻辑回归模型推广到多项逻辑回归模型,用于多项分类。假设离散型随机变量Y的取值集合是1,2,,K{1,2,\cdots,K},那么多项逻辑回归模型是:
P(Y=kX)=exp(wkx)1+k=1K1exp(wkx),k=1,2,,K1 P(Y=k|X)=\frac{\exp(w_{k}\cdot x)}{1+\sum_{k=1}^{K-1}\exp(w_{k}\cdot x)},\quad k=1,2,\cdots,K-1
P(Y=KX)=11+k=1K1exp(wkx) P(Y=K|X)=\frac{1}{1+\sum_{k=1}^{K-1}\exp(w_{k}\cdot x)}
二项逻辑回归的参数估计法也可推广到多项逻辑回归。