二分类评测指标

一定要搞清楚

markdown不支持复杂表格制作,所以word做好以后截图。
二分类评测指标
这张表极其关键。
简单梳理一下,预测的结果是后面的字母,真实的结果是前面的字母。


好了,接下来梳理指标:

  • 查准率(precision)
    precision=TPTP+FPprecision = \frac{TP}{TP + FP}
    解释:在预测对的里面到底有多少是对的。

  • 查全率(recall)
    recall=TPTP+FNrecall = \frac{TP}{TP+FN}
    解释:对的例子中,查全的概率。别名:Sensitivity ,true positive rate

  • Specificity
    Specificity=TNTN+FPSpecificity= \frac{TN}{ TN+ FP}
    解释:预测错的里面到底有多少错的。别名:true negative rate

  • FPR和FNR
    上面说到了true positive rate和true negative rate,当然也有false positive rate 和 false negative rate。
    false positive rate=1true negative ratefalse\ positive\ rate = 1-true\ negative\ rate

false negative rate=1true positive ratefalse\ negative\ rate = 1-true\ positive\ rate


  • P-R 曲线

二分类评测指标
查准率和查全率是一对矛盾的度量,一般来说precision高,recall往往偏低;而recall高,precision往往偏低。所以就有了P-R曲线。显然,蓝色曲线越接近右上角,分类器性能越好。一些文章中的P-R curve是光滑的,注意,这一般是为了美观和构图方便起见

  • BEP(Break-Even Point)
    平衡点(BEP)是precision=recall时的点。如上图所示。

  • ROC curve
    二分类评测指标
    ROC,全称Receiver Operating Characteristic。与P-R curve的区别是,横纵坐标不一样。横轴是FPR,纵轴是TPR,而PR curve横轴是TPR,纵轴是precision。AUC就是灰色部分的面积。

  • F1-Score
    F1score=2×precision×recallprecision+recallF1-score = \frac{2\times precision\times recall}{precision+recall}
    解释:其实就是Dice 系数。BEP的度量过于简单,所以一般使用F1-score作为度量。
    二分类评测指标

  • FβF_\beta-score
    在不同的任务中,有不同的需求。西瓜书上举例,做推荐系统的希望我推荐的尽可能就是用户喜欢的,所以precision很重要;警察抓小偷,希望尽可能抓住所有小偷,所以会一一排查,希望recall高。所以FβF_\beta-score的β\beta就是一个调控因子。
    Fβ=(1+β2)×P×R(β2×P)+RF_\beta = \frac{(1+\beta^2)\times P \times R}{(\beta^2 \times P)+R}
    β=1\beta=1,则就是普通的F1-Score。
    β>1\beta>1,recall有更大影响。
    β<1\beta<1,precision有更大影响。

  • 宏F1(macro-F1)和微F1(micro-F1)
    比如你有很多数据集,所以有很多组precision和recall。然后计算出平均的precision和recall,利用他们算F1,就是宏F1(macro-F1)
    你还是有很多数据集,你计算出了平均的TP,FP,TN,FN。根据这些算F1,就是微F1(micro-F1)