简单示例

[ML][分类指标]ROC, AUC介绍
转载自zhwhong简书
医学检查结果一般有一下四种情况：

真阳性(True Positive, TP)
假阳性(False Positive, FP)
真阴性(True Negative, TN)
假阴性(False Positive, FP)

主要参数

准确率(Accuracy):
$Accuracy=\frac{TP+TN}{TP+FP+TN+FN}$
精确率(Precision):
$Precision=P=\frac{TP}{TP+FP}$ .
ps：个人理解：正类预测对的占所有预测为正类的比例（包括负类预测成正类的）
召回率(Recall)、灵敏度(Sensitivity)、真阳性率(True Positive Rate, TPR):
$Recall=R=Sensitivity=TPR=\frac{TP}{TP+FN}$ .
ps:个人理解：将正类预测对的占原始是正类的比率（包括正类预测对的和正类预测错的）
$F_1$ 值：精确率和召回率的调和平均
$\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}$
特异度(Specificity)、真阴性率(TNR)
$Sepecificity=TNR=\frac{TN}{FP+TN}$ .
ps:是召回率以负类为关注对象
假阴性率(FNR)、漏诊率(1 - 灵敏度):
$FNR=\frac{FN}{TP+FN}$
假阳性率(FRR)、误诊率(1 - 特异度):
$FPR=\frac{FP}{FP+TN}$
阳性似然比 = 真阳性率 / 假阳性率 = 灵敏度 / (1 - 特异度)
隐形似然比 = 假阴性率 / 真阴性率 = (1 - 灵敏度) / 特异度
Youden指数 = 灵敏度 + 特异度 - 1 = 真阳性率 - 假阳性率

ROC曲线

ROC(Receiver Operating Characteristic Curve)曲线：接受者操作曲线，反映敏感性和特异性连续变量的综合指标。

In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied.

[ML][分类指标]ROC, AUC介绍

横坐标：假阳性率
纵坐标：真阳性率，召回率

理想情况下我们的分类器应该100%判断准确，也就是真阳性率(TPR)=1，假阳性率(FPR)=0。在ROC曲线上的每个点代表一个threshold，对于一个分类器，对会有TPR和FPR。

绘制ROC曲线

在分类器中绘制ROC曲线：利用每个样本的属于正类的的概率作为threshold得出TPR和FPR。用曲线连接起来则就是ROC曲线。

AUC

AUC:(Area Under Curve)ROC曲线下的面积。

The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example

作者：zhwhong
链接：https://www.jianshu.com/p/c61ae11cc5f6
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

AUC值的计算

首先AUC 的值不会大于1
ROC曲线一般又位于 $y=x$ 的上方，所以 $AUC\in(0.5,1)$ ，

梯形法
ROC AUCH

AUC的意义

AUC = 1，是完美分类器，采用这个预测模型时，存在至少一个阈值能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。
AUC = 0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。
AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测
AUC值越大的分类器，正确率越高
示例图：

ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡（class imbalance）现象，即负样本比正样本多很多（或者相反），而且测试数据中的正负样本的分布也可能随着时间变化，a)和©为ROC曲线，(b)和(d)为Precision-Recall曲线。(a)和(b)展示的是分类其在原始测试集（正负样本分布平衡）的结果，©和(d)是将测试集中负样本的数量增加到原来的10倍后，分类器的结果。可以明显的看出，ROC曲线基本保持原貌，而Precision-Recall曲线则变化较大。

[ML][分类指标]ROC, AUC介绍

Reference

-zhwhong简书

[ML][分类指标]ROC, AUC介绍

常用分类指标

简单示例

主要参数

ROC曲线

绘制ROC曲线

AUC

AUC值的计算

AUC的意义

Reference

相关推荐