二分类评测指标

一定要搞清楚

markdown不支持复杂表格制作，所以word做好以后截图。
二分类评测指标
这张表极其关键。
简单梳理一下，预测的结果是后面的字母，真实的结果是前面的字母。

好了，接下来梳理指标：

查准率（precision）
$precision = \frac{TP}{TP + FP}$
解释：在预测对的里面到底有多少是对的。
查全率（recall）
$recall = \frac{TP}{TP+FN}$
解释：对的例子中，查全的概率。别名：Sensitivity ，true positive rate
Specificity
$Specificity= \frac{TN}{ TN+ FP}$
解释：预测错的里面到底有多少错的。别名：true negative rate
FPR和FNR
上面说到了true positive rate和true negative rate，当然也有false positive rate 和 false negative rate。
$false\ positive\ rate = 1-true\ negative\ rate$

$false\ negative\ rate = 1-true\ positive\ rate$

P-R 曲线

二分类评测指标
查准率和查全率是一对矛盾的度量，一般来说precision高，recall往往偏低；而recall高，precision往往偏低。所以就有了P-R曲线。显然，蓝色曲线越接近右上角，分类器性能越好。一些文章中的P-R curve是光滑的，注意，这一般是为了美观和构图方便起见

BEP(Break-Even Point)
平衡点（BEP）是precision=recall时的点。如上图所示。
ROC curve

ROC，全称Receiver Operating Characteristic。与P-R curve的区别是，横纵坐标不一样。横轴是FPR，纵轴是TPR，而PR curve横轴是TPR，纵轴是precision。AUC就是灰色部分的面积。
F1-Score
$F1-score = \frac{2\times precision\times recall}{precision+recall}$
解释：其实就是Dice 系数。BEP的度量过于简单，所以一般使用F1-score作为度量。
$F_\beta$ -score
在不同的任务中，有不同的需求。西瓜书上举例，做推荐系统的希望我推荐的尽可能就是用户喜欢的，所以precision很重要；警察抓小偷，希望尽可能抓住所有小偷，所以会一一排查，希望recall高。所以 $F_\beta$ -score的 $\beta$ 就是一个调控因子。
$F_\beta = \frac{(1+\beta^2)\times P \times R}{(\beta^2 \times P)+R}$
$\beta=1$ ，则就是普通的F1-Score。
$\beta>1$ ，recall有更大影响。
$\beta<1$ ，precision有更大影响。
宏F1(macro-F1)和微F1(micro-F1)
比如你有很多数据集，所以有很多组precision和recall。然后计算出平均的precision和recall，利用他们算F1，就是宏F1(macro-F1)；
你还是有很多数据集，你计算出了平均的TP,FP,TN,FN。根据这些算F1，就是微F1(micro-F1)。

相关推荐