逻辑回归算法
一、逻辑回归与线性回归区别与联系
-
区别
-
联系
把线性回归模型简写为
(3.2)
对y取对数,得到对数线性回归
上式实际上是在试图让逼近y。虽然形式上是线性回归,但实质上已是在求取输入空间到输出空间的非线性函 数映射。更一般地,可以得到以下广义线性模型
这里另等于对数几率函数
,可得到以下模型
二、逻辑回归原理
对数线性模型,对(3.2)式两边取对数得
简化为以下形式
(3.15)
引入对数几率函数
将对数几率函数带入(3.15)式,得
(3.18)
(3.18.1)
两边取对数,转化为对数线性回归模型,得
概率模型
有(3.18)式转换可得,
, (3.23)
(3.24)
三、损失函数
逻辑回归跟线性回归不同,采用的损失函数是极大似然函数。
逻辑回归模型最大化“对数似然”
(3.25)
令,
,则
可简写成
.再令
,
,则式(3.25)中的似然项可重写为
(3.26)
当或
,即可获得式(3.23)和(3.24)
(3.23)式用简写,
等式两边取对数
(3.24)式用简写,
等式两边取对数
由以上可得,我们将(3.26)带入(3.25),可得到最小化公式
(3.27)
令或
,即可得到以上推导过程,式(3.27)为最小化,(3.25)为最大化,
所以上式加了个负号。
代价函数为:
四、正则化与评估指标
-
正则化
包括L1范数和L2范数。
首先针对L1范数,正则化项为,目标函数如下
当采用梯度下降方式来优化目标函数时,对目标函数进行求导,正则化项导致的梯度变化当wj>0时取1,
当wj<0时取-1.
L2范数,正则化项为,目标函数如下
同样对它求导,正则化项导数为。
-
评估指标
ROC曲线
ROC曲线的横坐标为false positive rate(FPR),纵坐标为 true positive rate(TPR) 当测试集中的正负样
本的分布变化的时候,ROC曲线能够保持不变。根据每个测试样本属于正样本的概率值从大到小排序,依次将
“Score”值作为阈值 ,当测试样本属于正样本的概率 大于或等于这个阈值时,认为它为正样本,否则为负样本。
计算出ROC曲线下面的面积,就是AUC的值。 介于0.5和1.0之间,越大越好。
Kappa statics
Kappa值,即内部一致性系数(inter-rater,coefficient of internal consistency),是作为评价判断的一致性程度
的重要指标。取值在0~1之间。Kappa≥0.75两者一致性较好;0.75>Kappa≥0.4两者一致性一般;Kappa<0.4两
者一致性较差。
Mean absolute error 和 Root mean squared error
平均绝对误差和均方根误差,用来衡量分类器预测值和实际结果的差异,越小越好。
Relative absolute error 和 Root relative squared error
相对绝对误差和相对均方根误差,有时绝对误差不能体现误差的真实大小,而相对误差通过体现误差占真值
的比重来反映误差大小。
五、优缺点
六、样本不均衡问题解决方法
样本不均衡也称为类别不均衡,即每个类别的数据量是不一样的。
假设有三个类别,分别为A,B,C。在训练集中,A类的样本占70%,B类的样本占25%,C类的样本占5%。
最后我的分类器对类A的样本过拟合了,而对其它两个类别的样本欠拟合。
解决方法:
1、产生新样本
过采样:将稀有类别的样本进行复制,通过增加此稀有类样本的数量来平衡数据集;
欠采样:从丰富类别的样本中随机选取和稀有类别相同数目的样本,通过减少丰富类的样本量来平衡数据集。
2、修改权重
在训练分类器时,为稀有类别的样本赋予更大的权值,为丰富类别的样本赋予较小的权值。
七、sklearn.linear_model.LogisticRegression