AUC评价指标的理解以及其为何能衡量二分类模型优劣——复习篇

AUC是衡量二分类模型优劣的一种评价指标,其他评价指标有精确度、准确率、召回率,而AUC比这三者更为常用。因为一般在分类模型中,预测结果都是以概率的形式表现,如果要计算准确率,通常都会手动设置一个阈值来将对应的概率转化成类别,这个阈值也就很大程度上影响了模型准确率的计算。AUC能很好描述模型整体性能的高低。从一定程度上讲,它可以描述预测结果中正例排在负例前面的概率

AUCArea under the Curve of ROCROC曲线下方的面积,是判断二分类预测模型优劣的标准。ROCreceiver operating characteristic curve属于信号检测理论。ROC曲线的横坐标是伪阳性率(也叫假正类率,False Positive Rate),纵坐标是真阳性率(真正类率,True Positive Rate),这的计算方法如下:

  • 伪阳性率(FPR 
    判定为正例却不是真正例的概率
  • 真阳性率(TPR 
    判定为正例也是真正例的概率

x轴与y轴的值域都是[0, 1],随着判定正例的阈值不断增加,我们可以得到一组(x, y)的点,相连便作出了ROC曲线,示例图如下: 

AUC评价指标的理解以及其为何能衡量二分类模型优劣——复习篇

ROC图从直观上看能得出两个结论:曲线点越接近右下角表示当前阈值预测正例出错的概率越高,准确性较低;曲线点越接近左上角则代表预测正例出错的概率越低,准确性较高