logistic回归 ROC AUC L1正则化

逻辑回归 logistic

1.logistic回归是一种极其高效的概率计算机制
2.logistic返回的是概率，可以”原样”使用返回的概率来代表某件事情发生的可能性，也可以将返回的概率转换成二元值（0和1）
3.logistic回归模型用于分类
设置阈值
评估的话用 准确率

常见的S型曲线

y^{'} = \frac{1}{1 + e^{- z}}

z = w^{T} * x + b

得到的结果位于（0,1）
其中，z为线性层的输出，z也被称为对数几率，由S函数的反函数证明，z可定义为标签1的概率除以标签0的概率得出的值的对数，既

z = l o g (\frac{y}{1 - y})

损失函数

l o s s (m o d e l) = \sum_{D} - y * l o g (y^{'}) - (1 - y) * l o g (1 - y^{'})

使用的损失函数是对数损失函数
L2正则化对于逻辑回归至关重要,如果没有正则化，因为S型曲线渐近线的存在，导致模型会尝试促使所有样本的损失达到0但始终达不到，从而使每个特征的权重接近正无穷或者负无穷

分类

准确率的一个bug在于类别不平衡问题类别中假比较多，模型一直预测为假，则模型的准确率也很高，但是没有意义。

对于类别不平衡的问题，把所有的情况分为四类：

    真正例TP   假正例FP
    假负例FN   真负例TN

T\F表示真假，P\N表示正负
真正例：正类别被判为正类别真的正例
假正例：负类别被判为正类别假的正例为负例
假负例：正类别被判为负类别假的负例为正例
真负例：负类别被判为负类别真的负例

所有判对的 = 真正例+真负例=TP+FP
所有正例 = 真正例+假负例=TP+FN
总数 = 真正例+真负例+假正例+假负例=n

准确率 = 正确的结果所占的比例 ，不适用于类别不平衡问题

a c c u r a c y = \frac{真 正 例 + 真 负 例}{n} = \frac{T P + T N}{T P + F P + T N + F N}

精确率 = 被识别为正类别的样本中，确实为正类别的比例。

P r e c i s i o n = \frac{T P}{T P + F P}

召回率 = 所有的正类别样本中，被正确识别出来的正类别占多少

召 回 率 = \frac{T P}{T P + F N}

精确率和召回率是矛盾冲突的，一般说，提高分类阈值,越少的例子被判断为正例(TP+FP
减少)，FP减少，TP减少或者保持不变，精确率提高，FN数量增加或者保持不变，但是TP+FN的数量为样本中本来正例的数量，保持不变，召回率下降。降低分类阈值，精确率下降，召回率提高。

ROC曲线(接受者操作特征曲线)，是一种显示分类模型在所有分类阈值下的效果的图表。绘制该图片需要两个参数

真正例率TPR 同召回率，所有为正例的样本中被判为正例的比率
$T P R = \frac{T P}{T P + F N}$
假正例率FPR 所有为负例的样本中被判为正例的比率
$F P R = \frac{F P}{F P + T N}$

ROC曲线绘制采用不同分类阈值的TPR和FPR，降低分类阈值会将更多的样本判为正类别，从而增加FP和TP的个数。为了绘制ROC曲线，需要使用不同的分类阈值多次评估回归模型，很麻烦。有一种基于排序的高效算法可以为我们提供此类信息，这种算法称为曲线下的面积(AUV,area under roc curve)。
详解ROC和AUC
ROC曲线的横轴为FPR，越低越好，纵轴为TPR，越高越好，故如果有两个不同的模型，曲线位于左上方的模型优于曲线位于右下方的模型，这一点可以拿曲线的面积(AUV)来量化。完美的分类为TPR=1，FPR=0；ROC曲线过(0,0)和(1,1)点
AUC = 1，是完美分类器，采用这个预测模型时，不管设定什么阈值都能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。
AUC = 0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。
AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。

AUC的计算:
AUC的物理意义为：任取一对(正、负)样本，正样本的score大于负样本的score的概率，也即是随机正类别样本位于随机负类别样本右侧的概率
把所有样本的得分score按照升序排列，用rank表示他们的位置，最大score的rank=(N+M)，M为正样本数，N为负样本数。假设正样本中score最大的样本为rank_max有M-1个正样本比他score小，那么有(rank_max-1)-(M-1)个负样本比他的score小，其次为(rank_second-1)-(M-2)。最后我们得到正样本大于负样本的概率为：
$\frac{\sum_{N} (r a n k) - M * (M - 1) / 2}{N * M}$

为什么可以这样计算呢？如何理解AUC的物理意义？
求积分，曲线上的每个点对应一个阈值，
如果样本总数确定了，横坐标和纵坐标的分母都是常数N和M，提出来，横坐标变成了FP，纵坐标变成了TP。
横坐标的改变(也就是d(FP))意味着有一个负样本(设为样本i)误判为了正例，此时对应一个新的FP值，该FP值对应的TP值为该负样本(样本i)之前的所有正样本之和，等价于统计任选一个正样本，该正样本的得分大于该负样本(样本i)的得分的正样本数，也就是纵坐标的值
若求面积，也就是求每一个FP值对应的TP值并对TP值求和，所有的TP值之和即为任取一对(正、负)样本，正样本的score大于负样本的score的情况总和。
一句话总结：想象投硬币，任选一个(正、负)样本对，若该正样本的值大于该负样本，则在该负样本对应的FP值上投入一枚硬币，最后硬币的高度即每个FP值对应的TF值，求硬币的总和即为面积。
问了我同学的解释，感觉虽然我和他的意思一样，但是他解释的比我清晰多了

贴个链接吧，写的挺好的
https://www.cnblogs.com/gatherstars/p/6084696.html
预测偏差
预测偏差= 预测平均值 - 数据集中相应标签的平均值
假如垃圾邮件的概率为1%，若预测的结果为20%，则发生了严重偏差。
可以添加校准层，但是应该避免。偏差应尽量控制为0.

L1正则化

r e g u l a r i z e r = \sum_{w} | | w | |

L1正则化促进稀疏，也就是权重为0，L2不会，L2有平方，不会促进稀疏。
L1和L2采用不同的方式降低权重。

L2的导数为2*权重
L1的导数为k，
可以将L2的导数的作用理解为每次减去权重的x%，一个不为0的权重，n次移除x%，也不可能为0，忽略精度。将L1导数的作用理解为减去一个常数，可以减为0.
L1 正则化 - 减少所有权重的绝对值 - 证明对宽度模型非常有效，只适用于一维模型。
L1正则化会使 信息缺乏的特征、 不同程度的信息丰富的特征 、 与其他类似的信息丰富特征密切相关的的信息丰富特征 的权重为0。

logistic回归 ROC AUC L1正则化

逻辑回归 logistic

分类

L1正则化

相关推荐