logistic回归 ROC AUC L1正则化
逻辑回归 logistic
1.logistic回归是一种极其高效的概率计算机制
2.logistic返回的是概率,可以”原样”使用返回的概率来代表某件事情发生的可能性,也可以将返回的概率转换成二元值(0和1)
3.logistic回归模型用于分类
设置阈值
评估的话用 准确率
常见的S型曲线
得到的结果位于(0,1)
其中,z为线性层的输出,z也被称为对数几率,由S函数的反函数证明,z可定义为标签1的概率除以标签0的概率得出的值的对数,既
损失函数
使用的损失函数是对数损失函数
L2正则化对于逻辑回归至关重要,如果没有正则化,因为S型曲线渐近线的存在,导致模型会尝试促使所有样本的损失达到0但始终达不到,从而使每个特征的权重接近正无穷或者负无穷
分类
准确率的一个bug在于类别不平衡问题类别中假比较多,模型一直预测为假,则模型的准确率也很高,但是没有意义。
对于类别不平衡的问题,把所有的情况分为四类:
真正例TP 假正例FP 假负例FN 真负例TN
T\F表示真假,P\N表示正负
真正例:正类别被判为正类别 真的正例
假正例:负类别被判为正类别 假的正例为负例
假负例:正类别被判为负类别 假的负例为正例
真负例:负类别被判为负类别 真的负例
所有判对的 = 真正例+真负例=TP+FP
所有正例 = 真正例+假负例=TP+FN
总数 = 真正例+真负例+假正例+假负例=n
准确率 = 正确的结果所占的比例 ,不适用于类别不平衡问题
精确率 = 被识别为正类别的样本中,确实为正类别的比例。
召回率 = 所有的正类别样本中,被正确识别出来的正类别占多少
精确率和召回率是矛盾冲突的,一般说,提高分类阈值,越少的例子被判断为正例(TP+FP
减少),FP减少,TP减少或者保持不变,精确率提高,FN数量增加或者保持不变,但是TP+FN的数量为样本中本来正例的数量,保持不变,召回率下降。降低分类阈值,精确率下降,召回率提高。
ROC曲线(接受者操作特征曲线),是一种显示分类模型在所有分类阈值下的效果的图表。绘制该图片需要两个参数
- 真正例率TPR 同召回率,所有为正例的样本中被判为正例的比率
- 假正例率FPR 所有为负例的样本中被判为正例的比率
ROC曲线绘制采用不同分类阈值的TPR和FPR,降低分类阈值会将更多的样本判为正类别,从而增加FP和TP的个数。为了绘制ROC曲线,需要使用不同的分类阈值多次评估回归模型,很麻烦。有一种基于排序的高效算法可以为我们提供此类信息,这种算法称为曲线下的面积(AUV,area under roc curve)。
详解ROC和AUC
ROC曲线的横轴为FPR,越低越好,纵轴为TPR,越高越好,故如果有两个不同的模型,曲线位于左上方的模型优于曲线位于右下方的模型,这一点可以拿曲线的面积(AUV)来量化。完美的分类为TPR=1,FPR=0;ROC曲线过(0,0)和(1,1)点 - AUC = 1,是完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。
- 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
- AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
-
AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
AUC的计算:
AUC的物理意义为:任取一对(正、负)样本,正样本的score大于负样本的score的概率,也即是随机正类别样本位于随机负类别样本右侧的概率
把所有样本的得分score按照升序排列,用rank表示他们的位置,最大score的rank=(N+M),M为正样本数,N为负样本数。假设正样本中score最大的样本为rank_max有M-1个正样本比他score小,那么有(rank_max-1)-(M-1)个负样本比他的score小,其次为(rank_second-1)-(M-2)。最后我们得到正样本大于负样本的概率为:为什么可以这样计算呢?如何理解AUC的物理意义?
求积分,曲线上的每个点对应一个阈值,
如果样本总数确定了,横坐标和纵坐标的分母都是常数N和M,提出来,横坐标变成了FP,纵坐标变成了TP。
横坐标的改变(也就是d(FP))意味着有一个负样本(设为样本i)误判为了正例,此时对应一个新的FP值,该FP值对应的TP值为该负样本(样本i)之前的所有正样本之和,等价于 统计 任选一个正样本,该正样本的得分大于该负样本(样本i)的得分的正样本数,也就是纵坐标的值
若求面积,也就是求每一个FP值对应的TP值并对TP值求和,所有的TP值之和即为 任取一对(正、负)样本,正样本的score大于负样本的score的情况总和。
一句话总结:想象投硬币,任选一个(正、负)样本对,若该正样本的值大于该负样本,则在该负样本对应的FP值 上投入一枚硬币,最后硬币的高度即每个FP值对应的TF值,求硬币的总和即为面积。
问了我同学的解释,感觉虽然我和他的意思一样,但是他解释的比我清晰多了
贴个链接吧,写的挺好的
https://www.cnblogs.com/gatherstars/p/6084696.html
预测偏差
预测偏差= 预测平均值 - 数据集中相应标签的平均值
假如垃圾邮件的概率为1%,若预测的结果为20%,则发生了严重偏差。
可以添加校准层,但是应该避免。偏差应尽量控制为0.
L1正则化
L1正则化促进稀疏,也就是权重为0,L2不会,L2有平方,不会促进稀疏。
L1和L2采用不同的方式降低权重。
- L2的导数为2*权重
- L1的导数为k,
可以将L2的导数的作用理解为每次减去权重的x%,一个不为0的权重,n次移除x%,也不可能为0,忽略精度。将L1导数的作用理解为减去一个常数,可以减为0.
L1 正则化 - 减少所有权重的绝对值 - 证明对宽度模型非常有效,只适用于一维模型。
L1正则化会使 信息缺乏的特征、 不同程度的信息丰富的特征 、 与其他类似的信息丰富特征密切相关的的信息丰富特征 的权重为0。