二分类评测指标
一定要搞清楚
markdown不支持复杂表格制作,所以word做好以后截图。
这张表极其关键。
简单梳理一下,预测的结果是后面的字母,真实的结果是前面的字母。
好了,接下来梳理指标:
-
查准率(precision)
解释:在预测对的里面到底有多少是对的。 -
查全率(recall)
解释:对的例子中,查全的概率。别名:Sensitivity ,true positive rate -
Specificity
解释:预测错的里面到底有多少错的。别名:true negative rate -
FPR和FNR
上面说到了true positive rate和true negative rate,当然也有false positive rate 和 false negative rate。
- P-R 曲线
查准率和查全率是一对矛盾的度量,一般来说precision高,recall往往偏低;而recall高,precision往往偏低。所以就有了P-R曲线。显然,蓝色曲线越接近右上角,分类器性能越好。一些文章中的P-R curve是光滑的,注意,这一般是为了美观和构图方便起见
-
BEP(Break-Even Point)
平衡点(BEP)是precision=recall时的点。如上图所示。 -
ROC curve
ROC,全称Receiver Operating Characteristic。与P-R curve的区别是,横纵坐标不一样。横轴是FPR,纵轴是TPR,而PR curve横轴是TPR,纵轴是precision。AUC就是灰色部分的面积。 -
F1-Score
解释:其实就是Dice 系数。BEP的度量过于简单,所以一般使用F1-score作为度量。 -
-score
在不同的任务中,有不同的需求。西瓜书上举例,做推荐系统的希望我推荐的尽可能就是用户喜欢的,所以precision很重要;警察抓小偷,希望尽可能抓住所有小偷,所以会一一排查,希望recall高。所以-score的就是一个调控因子。
,则就是普通的F1-Score。
,recall有更大影响。
,precision有更大影响。 -
宏F1(macro-F1)和微F1(micro-F1)
比如你有很多数据集,所以有很多组precision和recall。然后计算出平均的precision和recall,利用他们算F1,就是宏F1(macro-F1);
你还是有很多数据集,你计算出了平均的TP,FP,TN,FN。根据这些算F1,就是微F1(micro-F1)。