精度，AUC，查准率，查全率，F值

经典的精度：即总精度or总正确率：

$p = (N - \Delta N) / N * 100\%$

△N为被错分的样本数; N为总样本数

在不平衡问题中，少数类被错分的代价变大，而总精度默认所有样本的错分代价相等。

AUC

学术界采用AUC（ROC曲线下部的面积）值度量不平衡问题的性能.

ROC： Receiver Operating Characteristic

AUC: the Area Under the ROC Curve

求解AUC有两种方法：

1.公式法：

$AUC = \frac{S_0 - n_0(n_0+1)/2}{n_0n_1}$

Tips : 只讲排序，不讲对错

S_0 为正类样本排序号（位置）之和；公式法排序为升序

n_0 为正类样本数

n_1 为负类样本数

精度，AUC，查准率，查全率，F值

如上图：

classifier 1:

$S_0 = 5+7+8+9+10=39$

$n_0 = 5$

$n_1 = 5$

$AUC = 24 / 25$

classifier2 同样的：

$AUC = 16 / 25$

由此得出，classifier 1 更好一些

2.积分法（求面积）
精度，AUC，查准率，查全率，F值

如上图，对应classifier1：

1.位置降序开始，先是4个正类，所以纵轴偏移 4 * 1/5 = 0.8

2.然后一个负类：横轴方向偏移一个0.2

3.以此类推，最后得AUC = 0.96

查准率

查准率，准确率，精确率表述同一概念：precision rate PR

PR 针对预测结果而言，表述预测为正类得样本中，有多少是真正得正类样本

$p_{pr} = \frac{TP}{TP+FP}$

注意：精度：accuracy 与PR 完全不同

查全率

查全率，召回是同一表述 recall rate:RR 有时也称灵敏度

$p_{rr} = \frac{TP}{TP+FN}$

实际上也就是：正类预测精度（positive accuracy）

查准率和查全率的关系：

精度，AUC，查准率，查全率，F值

F值

F值（F-Measure）是PR 和 RR 的加权调和平均：

表达了对查全率和查准率得偏好程度
alpha > 1时，偏向查全率。

$P_{f} = \frac{(1+\alpha^2)p_{pr}*p_{rr}}{\alpha^2*p_{pr}+p_{rr} }$

当alpha=1 时，就是常见的F1值

$P_{f1} = \frac{2p_{pr}*p_{rr}}{(p_{pr}+p_{rr} )}$

当 F值较高时，说明方法是有效的。

精度，AUC，查准率，查全率，F值

AUC

查准率

查全率

F值

相关推荐