[ML][分类指标]ROC, AUC介绍

简单示例

[ML][分类指标]ROC, AUC介绍
转载自zhwhong简书
医学检查结果一般有一下四种情况:

  • 真阳性(True Positive, TP)
  • 假阳性(False Positive, FP)
  • 真阴性(True Negative, TN)
  • 假阴性(False Positive, FP)

主要参数

  • 准确率(Accuracy):
    Accuracy=TP+TNTP+FP+TN+FNAccuracy=\frac{TP+TN}{TP+FP+TN+FN}
  • 精确率(Precision):
    Precision=P=TPTP+FPPrecision=P=\frac{TP}{TP+FP}.
    ps:个人理解:正类预测对的占所有预测为正类的比例(包括负类预测成正类的)
  • 召回率(Recall)、灵敏度(Sensitivity)、真阳性率(True Positive Rate, TPR):
    Recall=R=Sensitivity=TPR=TPTP+FNRecall=R=Sensitivity=TPR=\frac{TP}{TP+FN} .
    ps:个人理解:将正类预测对的占原始是正类的比率(包括正类预测对的和正类预测错的)
  • F1F_1值:精确率和召回率的调和平均
    2F1=1P+1R\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}
  • 特异度(Specificity)、真阴性率(TNR)
    Sepecificity=TNR=TNFP+TNSepecificity=TNR=\frac{TN}{FP+TN}.
    ps:是召回率以负类为关注对象
  • 假阴性率(FNR)、漏诊率(1 - 灵敏度):
    FNR=FNTP+FNFNR=\frac{FN}{TP+FN}
  • 假阳性率(FRR)、误诊率(1 - 特异度):
    FPR=FPFP+TNFPR=\frac{FP}{FP+TN}
  • 阳性似然比 = 真阳性率 / 假阳性率 = 灵敏度 / (1 - 特异度)
  • 隐形似然比 = 假阴性率 / 真阴性率 = (1 - 灵敏度) / 特异度
  • Youden指数 = 灵敏度 + 特异度 - 1 = 真阳性率 - 假阳性率

ROC曲线

ROC(Receiver Operating Characteristic Curve)曲线:接受者操作曲线,反映敏感性和特异性连续变量的综合指标。

In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied.

[ML][分类指标]ROC, AUC介绍

  1. 横坐标:假阳性率
  2. 纵坐标:真阳性率,召回率
    [ML][分类指标]ROC, AUC介绍
    理想情况下我们的分类器应该100%判断准确,也就是真阳性率(TPR)=1,假阳性率(FPR)=0。在ROC曲线上的每个点代表一个threshold,对于一个分类器,对会有TPR和FPR。

绘制ROC曲线

在分类器中绘制ROC曲线:利用每个样本的属于正类的的概率作为threshold得出TPR和FPR。用曲线连接起来则就是ROC曲线。

AUC

AUC:(Area Under Curve)ROC曲线下的面积。

The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example

作者:zhwhong
链接:https://www.jianshu.com/p/c61ae11cc5f6
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

AUC值的计算

首先AUC 的值不会大于1
ROC曲线一般又位于y=xy=x的上方,所以AUC(0.5,1)AUC\in(0.5,1)

  1. 梯形法
  2. ROC AUCH

AUC的意义

  • AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
  • 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
  • AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
  • AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测
    AUC值越大的分类器,正确率越高
    示例图:
    [ML][分类指标]ROC, AUC介绍
    ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化,a)和©为ROC曲线,(b)和(d)为Precision-Recall曲线。(a)和(b)展示的是分类其在原始测试集(正负样本分布平衡)的结果,©和(d)是将测试集中负样本的数量增加到原来的10倍后,分类器的结果。可以明显的看出,ROC曲线基本保持原貌,而Precision-Recall曲线则变化较大。

[ML][分类指标]ROC, AUC介绍

Reference

-zhwhong简书