[ML][分类指标]ROC, AUC介绍
简单示例
转载自zhwhong简书
医学检查结果一般有一下四种情况:
- 真阳性(True Positive, TP)
- 假阳性(False Positive, FP)
- 真阴性(True Negative, TN)
- 假阴性(False Positive, FP)
主要参数
- 准确率(Accuracy):
- 精确率(Precision):
.
ps:个人理解:正类预测对的占所有预测为正类的比例(包括负类预测成正类的) - 召回率(Recall)、灵敏度(Sensitivity)、真阳性率(True Positive Rate, TPR):
.
ps:个人理解:将正类预测对的占原始是正类的比率(包括正类预测对的和正类预测错的) -
值:精确率和召回率的调和平均
- 特异度(Specificity)、真阴性率(TNR)
.
ps:是召回率以负类为关注对象 - 假阴性率(FNR)、漏诊率(1 - 灵敏度):
- 假阳性率(FRR)、误诊率(1 - 特异度):
- 阳性似然比 = 真阳性率 / 假阳性率 = 灵敏度 / (1 - 特异度)
- 隐形似然比 = 假阴性率 / 真阴性率 = (1 - 灵敏度) / 特异度
- Youden指数 = 灵敏度 + 特异度 - 1 = 真阳性率 - 假阳性率
ROC曲线
ROC(Receiver Operating Characteristic Curve)曲线:接受者操作曲线,反映敏感性和特异性连续变量的综合指标。
In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied.
- 横坐标:假阳性率
- 纵坐标:真阳性率,召回率
理想情况下我们的分类器应该100%判断准确,也就是真阳性率(TPR)=1,假阳性率(FPR)=0。在ROC曲线上的每个点代表一个threshold,对于一个分类器,对会有TPR和FPR。
绘制ROC曲线
在分类器中绘制ROC曲线:利用每个样本的属于正类的的概率作为threshold得出TPR和FPR。用曲线连接起来则就是ROC曲线。
AUC
AUC:(Area Under Curve)ROC曲线下的面积。
The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example
作者:zhwhong
链接:https://www.jianshu.com/p/c61ae11cc5f6
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
AUC值的计算
首先AUC 的值不会大于1
ROC曲线一般又位于的上方,所以,
- 梯形法
- ROC AUCH
AUC的意义
- AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
- 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
- AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
- AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测
AUC值越大的分类器,正确率越高
示例图:
ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化,a)和©为ROC曲线,(b)和(d)为Precision-Recall曲线。(a)和(b)展示的是分类其在原始测试集(正负样本分布平衡)的结果,©和(d)是将测试集中负样本的数量增加到原来的10倍后,分类器的结果。可以明显的看出,ROC曲线基本保持原貌,而Precision-Recall曲线则变化较大。