浅谈逻辑回归背后的几何意义

综述:
        逻辑回归,可以说是一个非常经典的算法,使用范围十分广泛,金融、互联网等行业都能看到它的身影,只要涉及到二分类,基本都是首选。也许大家已经对逻辑回归已经十分了解,包括原理、求解等,所以这次主要从几何意义的方向去探讨逻辑回归算法,以加深对其了解。

正文:
        先大致说一下模型的流程,特征x_n表示n个特征,y为0/1的label,特征x_n经过线性映射后得到z,再经过sigmoid函数得到label为1的“概率”,最后通过阈值来决定类别。本文分成三部分来叙述,分别为:一、线性部分,二、sigmoid函数,三、阈值的确定。
浅谈逻辑回归背后的几何意义

一、线性部分:
        从模型的思想出发,希望找到一个超平面能够实现类别区分。(这里其实与svm相似,不同的是LR用到了全局的数据,而svm只用了有限个数的“支持向量”)
浅谈逻辑回归背后的几何意义
为方便显示,以一个二维特征的平面图表示,图中的线性组合wTx=0时,就是所说的超平面,假设能够完美进行切分。对于线性部分,公式如下:
浅谈逻辑回归背后的几何意义
当z为0时,样本刚好落在超平面上,那当z不为0时,又代表什么呢?我们先看看以下的式子,是不是觉得有点眼熟?
浅谈逻辑回归背后的几何意义
没错,就是点到超平面的“距离”,因为对于所有样本点,线性参数是一样的,所以z代表的是样本点到超平面的(正负)距离。
浅谈逻辑回归背后的几何意义
两个样本点a、b,a到超平面的距离大于b到超平面的距离,对于模型而言当然是希望样本点到超平面距离越远,那这个样本点属于这一类的“概率”就越高,或者说p(0|a)>p(0|b)。但z只是距离并非概率,如何将距离转化成概率,接下来引入sigmoid函数。

二、sigmoid函数
        先看一下sigmoid的公式:
浅谈逻辑回归背后的几何意义
原式可能不太好理解,但通过变换后,明显更容易理解,其中1可以理解为e^0,z为线性部分求得的“距离”;sigmoid函数具有对称性,另外sigmoid函数的求导也相对简单。
浅谈逻辑回归背后的几何意义
如图显示,sigmoid函数将z压缩到(0,1)的范围内,也符合了概率的假设。sigmoid函数应用广泛,除了在逻辑回归上应用,还广泛运用于深度学习中,作为神经元的**函数,加入了非线性,使得模型表达能力更加强大。但sigmoid函数也有一定的缺点,图像中可以看出当|z|大于2时,随着|z|的增大,函数的梯度在快速逼近于0,这也导致了深度学习的反向传播时,容易出现梯度消失的情况。

三、阈值的确定:
        一般来说,阈值的默认值为0.5。但是也会根据实际的情况来定,如果对1类偏谨慎,那可适当将阈值调高;如果对1类偏宽松,可适当将阈值调低。另外,通过调整阈值,可画出roc曲线,并求出auc,从而作为判断模型能力的重要依据。
浅谈逻辑回归背后的几何意义
如图所示,三条实线分别为三个模型的roc曲线,曲线的右下方面积为auc,实线越靠近左上方,或者auc的面积越大,说明该模型的效果越好。

end
以上为本人对逻辑回归中涉及的几何知识方面的一些浅见,如有错误,欢迎指正。