2_逻辑回归算法梳理

逻辑回归与线性回归的联系与区别

联系:
线性回归是对数据的预测;逻辑回归是对给定数据的分类。

虽然逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基础上,在特征到结果的映射中加入了一层sigmoid函数(非线性)映射,即先把特征线性求和,然后使用sigmoid函数来预测。

线性回归在整个实数域范围内进行预测,敏感度一致,而分类范围,需要在[0,1]十分敏感。逻辑回归就是一种减小预测范围,将预测值限定为[0,1]间的一种回归模型,因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好。
2_逻辑回归算法梳理

区别对比

类别 线性回归 逻辑回归
目的 预测 分类
Y 未知 {0,1}
函数 拟合函数 预测函数
参数计算方式 最小二乘法 最大似然法

逻辑回归的原理

分类的本质:在空间中找到一个决策边界来完成分类的决策

逻辑回归模型构建方法:
1.构建预测函数
2_逻辑回归算法梳理
h(x)代表预测结果取1的概率:
P(y=1│x;θ)=h_θ (x)
P(y=0│x;θ)=1-h_θ (x)

2.构造损失函数
2_逻辑回归算法梳理
3.使用梯度下降或者向量法求最小损失函数和θ

逻辑回归损失函数推导及优化

采用梯度下降算法求解使代价函数最小的参数:
2_逻辑回归算法梳理
除了梯度下降算法外,还常常被用以下算法来令代价函数最小,而且通常不需要人工选择学习率,通常比梯度算法更快速。这些算法是:共轭梯度,局部优化法和有限内存局部优化法。

正则化与模型评估指标

正则化:
逻辑回归为了解决过拟合问题,所以需要考虑正则化。常见的有L1正则化和L2正则化。
正则化是损失函数加上正则化项,即L1范数或L2范数,超参数a作为惩罚系数,调节惩罚的大小。
L1正则化损失函数为:
2_逻辑回归算法梳理
L2正则化损失函数为:
2_逻辑回归算法梳理
评估指标:
常用的评估指标是:
1.准确率(accuracy):分类器正确分类的样本数与总样本数之比
2.精确率(precision):预测为正的样本中有多少是对的
3.召回率(recall):预测正确样本中有多少被预测中了
ROC曲线和AUC值。

逻辑回归的优缺点

优点:
1.模型简单,解释性强
2.概率形式输出

缺点:
1.要得到好的分类结果,对特征要求较高,它高度依赖正确的数据表示。
2.不能用 logistic 回归来解决非线性问题。

样本不均衡问题解决办法

参考
1.扩大数据集
2.对数据集进行重采样
对小类的数据样本进行采样来增加小类的数据样本个数,即过采样
对大类的数据样本进行采样来减少该类数据样本的个数,即欠采样
3.尝试对模型进行惩罚

sklearn参数

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()

2_逻辑回归算法梳理