分类评价指标

1. ROC曲线

  ROC曲线的横轴是FPR,纵轴是TPR。FPR是假正率,它和安全领域中的误报率是等价的,计算公式为FPFP+TN\frac{FP}{FP +TN},误报率是从真实白样本角度来看的。TPR指的是命中率,也是召回率,计算公式为TPTP+FN\frac{TP}{TP+FN},其中漏报率=1-命中率,而漏报率是从真实黑样本角度来看的。

  如下图所示,当d<θd<\theta的时候,则认为样本为负样本,所以为FP。当d>θd>\theta的时候,则认为样本为正样本,所以为FN。
分类评价指标

2. AUC

  为了计算 ROC 曲线上的点,我们可以使用不同的分类阈值多次评估逻辑回归模型,但这样做效率非常低。幸运的是,有一种基于排序的高效算法可以为我们提供此类信息,这种算法称为曲线下面积(Area Under Curve)。

  比较有意思的是,如果我们连接对角线,它的面积正好是0.5。对角线的实际含义是:随机判断响应与不响应,正负样本覆盖率应该都是50%,表示随机效果。ROC曲线越陡越好,所以理想值就是1,一个正方形,而最差的随机判断都有0.5,所以一般AUC的值是介于0.5到1之间的。

2.1 AUC的一般判断标准

  • 0.5 - 0.7:效果较低,但用于预测股票已经很不错了

  • 0.7 - 0.85:效果一般

  • 0.85 - 0.95:效果很好

  • 0.95 - 1:效果非常好,但一般不太可能

2.2 AUC的物理意义

  曲线下面积对所有可能的分类阈值的效果进行综合衡量。曲线下面积的一种解读方式是看作模型将某个随机正类别样本排列在某个随机负类别样本之上的概率。以下面的样本为例,逻辑回归预测从左到右以升序排列:
分类评价指标
https://blog.csdn.net/abcjennifer/article/details/7359370
https://blog.csdn.net/Stephen_shijun/article/details/83059863
为什么ROC曲线不受样本不均衡的影响?
https://blog.csdn.net/songyunli1111/article/details/82285266