逻辑回归与线性回归的联系与区别

联系：
线性回归是对数据的预测；逻辑回归是对给定数据的分类。

虽然逻辑回归能够用于分类，不过其本质还是线性回归。它仅在线性回归的基础上，在特征到结果的映射中加入了一层sigmoid函数（非线性）映射，即先把特征线性求和，然后使用sigmoid函数来预测。

线性回归在整个实数域范围内进行预测，敏感度一致，而分类范围，需要在[0,1]十分敏感。逻辑回归就是一种减小预测范围，将预测值限定为[0,1]间的一种回归模型，因而对于这类问题来说，逻辑回归的鲁棒性比线性回归的要好。
2_逻辑回归算法梳理

区别对比

类别	线性回归	逻辑回归
目的	预测	分类
Y	未知	{0，1}
函数	拟合函数	预测函数
参数计算方式	最小二乘法	最大似然法

逻辑回归的原理

分类的本质：在空间中找到一个决策边界来完成分类的决策

逻辑回归模型构建方法：
1.构建预测函数
2_逻辑回归算法梳理
h(x)代表预测结果取1的概率：
P(y=1│x;θ)=h_θ (x)
P(y=0│x;θ)=1-h_θ (x)

2.构造损失函数
2_逻辑回归算法梳理
3.使用梯度下降或者向量法求最小损失函数和θ

逻辑回归损失函数推导及优化

采用梯度下降算法求解使代价函数最小的参数：
2_逻辑回归算法梳理
除了梯度下降算法外，还常常被用以下算法来令代价函数最小，而且通常不需要人工选择学习率，通常比梯度算法更快速。这些算法是：共轭梯度，局部优化法和有限内存局部优化法。

正则化与模型评估指标

正则化：
逻辑回归为了解决过拟合问题，所以需要考虑正则化。常见的有L1正则化和L2正则化。
正则化是损失函数加上正则化项，即L1范数或L2范数，超参数a作为惩罚系数，调节惩罚的大小。
L1正则化损失函数为：
2_逻辑回归算法梳理
L2正则化损失函数为：

评估指标：
常用的评估指标是:
1.准确率(accuracy)：分类器正确分类的样本数与总样本数之比
2.精确率(precision)：预测为正的样本中有多少是对的
3.召回率(recall)：预测正确样本中有多少被预测中了
ROC曲线和AUC值。

逻辑回归的优缺点

优点：
1.模型简单，解释性强
2.概率形式输出

缺点：
1.要得到好的分类结果，对特征要求较高，它高度依赖正确的数据表示。
2.不能用 logistic 回归来解决非线性问题。

样本不均衡问题解决办法

参考
1.扩大数据集
2.对数据集进行重采样
对小类的数据样本进行采样来增加小类的数据样本个数，即过采样。
对大类的数据样本进行采样来减少该类数据样本的个数，即欠采样。
3.尝试对模型进行惩罚

sklearn参数

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()

2_逻辑回归算法梳理