logistic回归 ROC AUC L1正则化

逻辑回归 logistic

1.logistic回归是一种极其高效的概率计算机制
2.logistic返回的是概率,可以”原样”使用返回的概率来代表某件事情发生的可能性,也可以将返回的概率转换成二元值(0和1)
3.logistic回归模型用于分类
设置阈值
评估的话用 准确率

常见的S型曲线

y=11+ez

z=wTx+b

logistic回归 ROC AUC L1正则化
得到的结果位于(0,1)
其中,z为线性层的输出,z也被称为对数几率,由S函数的反函数证明,z可定义为标签1的概率除以标签0的概率得出的值的对数,既z=log(y1y)

损失函数

loss(model)=Dylog(y)(1y)log(1y)

使用的损失函数是对数损失函数
L2正则化对于逻辑回归至关重要,如果没有正则化,因为S型曲线渐近线的存在,导致模型会尝试促使所有样本的损失达到0但始终达不到,从而使每个特征的权重接近正无穷或者负无穷

分类

准确率的一个bug在于类别不平衡问题类别中假比较多,模型一直预测为假,则模型的准确率也很高,但是没有意义。

对于类别不平衡的问题,把所有的情况分为四类:

    真正例TP   假正例FP
    假负例FN   真负例TN

T\F表示真假,P\N表示正负
真正例:正类别被判为正类别 真的正例
假正例:负类别被判为正类别 假的正例为负例
假负例:正类别被判为负类别 假的负例为正例
真负例:负类别被判为负类别 真的负例

所有判对的 = 真正例+真负例=TP+FP
所有正例 = 真正例+假负例=TP+FN
总数 = 真正例+真负例+假正例+假负例=n

准确率 = 正确的结果所占的比例 ,不适用于类别不平衡问题

accuracy=+n=TP+TNTP+FP+TN+FN

精确率 = 被识别为正类别的样本中,确实为正类别的比例。
Precision=TPTP+FP

召回率 = 所有的正类别样本中,被正确识别出来的正类别占多少
=TPTP+FN

精确率和召回率是矛盾冲突的,一般说,提高分类阈值,越少的例子被判断为正例(TP+FP
减少),FP减少,TP减少或者保持不变,精确率提高,FN数量增加或者保持不变,但是TP+FN的数量为样本中本来正例的数量,保持不变,召回率下降降低分类阈值,精确率下降,召回率提高。

ROC曲线(接受者操作特征曲线),是一种显示分类模型在所有分类阈值下的效果的图表。绘制该图片需要两个参数

  • 真正例率TPR 同召回率,所有为正例的样本中被判为正例的比率
    TPR=TPTP+FN
  • 假正例率FPR 所有为负例的样本中被判为正例的比率
    FPR=FPFP+TN

    logistic回归 ROC AUC L1正则化
    ROC曲线绘制采用不同分类阈值的TPR和FPR,降低分类阈值会将更多的样本判为正类别,从而增加FP和TP的个数。为了绘制ROC曲线,需要使用不同的分类阈值多次评估回归模型,很麻烦。有一种基于排序的高效算法可以为我们提供此类信息,这种算法称为曲线下的面积(AUV,area under roc curve)。
    详解ROC和AUC
    ROC曲线的横轴为FPR,越低越好,纵轴为TPR,越高越好,故如果有两个不同的模型,曲线位于左上方的模型优于曲线位于右下方的模型,这一点可以拿曲线的面积(AUV)来量化。完美的分类为TPR=1,FPR=0;ROC曲线过(0,0)和(1,1)点
  • AUC = 1,是完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。
  • 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
  • AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
  • AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

    AUC的计算:
    AUC的物理意义为:任取一对(正、负)样本,正样本的score大于负样本的score的概率,也即是随机正类别样本位于随机负类别样本右侧的概率
    把所有样本的得分score按照升序排列,用rank表示他们的位置,最大score的rank=(N+M),M为正样本数,N为负样本数。假设正样本中score最大的样本为rank_max有M-1个正样本比他score小,那么有(rank_max-1)-(M-1)个负样本比他的score小,其次为(rank_second-1)-(M-2)。最后我们得到正样本大于负样本的概率为:

    N(rank)M(M1)/2NM

    为什么可以这样计算呢?如何理解AUC的物理意义?
    求积分,曲线上的每个点对应一个阈值,
    如果样本总数确定了,横坐标和纵坐标的分母都是常数N和M,提出来,横坐标变成了FP,纵坐标变成了TP。
    横坐标的改变(也就是d(FP))意味着有一个负样本(设为样本i)误判为了正例,此时对应一个新的FP值,该FP值对应的TP值为该负样本(样本i)之前的所有正样本之和,等价于 统计 任选一个正样本,该正样本的得分大于该负样本(样本i)的得分的正样本数,也就是纵坐标的值
    若求面积,也就是求每一个FP值对应的TP值并对TP值求和,所有的TP值之和即为 任取一对(正、负)样本,正样本的score大于负样本的score的情况总和。
    一句话总结:想象投硬币,任选一个(正、负)样本对,若该正样本的值大于该负样本,则在该负样本对应的FP值 上投入一枚硬币,最后硬币的高度即每个FP值对应的TF值,求硬币的总和即为面积。
    问了我同学的解释,感觉虽然我和他的意思一样,但是他解释的比我清晰多了
    logistic回归 ROC AUC L1正则化
    贴个链接吧,写的挺好的
    https://www.cnblogs.com/gatherstars/p/6084696.html
    预测偏差
    预测偏差= 预测平均值 - 数据集中相应标签的平均值
    假如垃圾邮件的概率为1%,若预测的结果为20%,则发生了严重偏差。
    可以添加校准层,但是应该避免。偏差应尽量控制为0.

L1正则化

regularizer=w||w||

L1正则化促进稀疏,也就是权重为0,L2不会,L2有平方,不会促进稀疏。
L1和L2采用不同的方式降低权重。

  • L2的导数为2*权重
  • L1的导数为k,
    可以将L2的导数的作用理解为每次减去权重的x%,一个不为0的权重,n次移除x%,也不可能为0,忽略精度。将L1导数的作用理解为减去一个常数,可以减为0.
    L1 正则化 - 减少所有权重的绝对值 - 证明对宽度模型非常有效,只适用于一维模型
    L1正则化会使 信息缺乏的特征不同程度的信息丰富的特征与其他类似的信息丰富特征密切相关的的信息丰富特征 的权重为0。