精度,AUC,查准率,查全率,F值

经典的精度:即 总精度or总正确率:

p=(NΔN)/N100% p = (N - \Delta N) / N * 100\%

△N为被错分的样本数; N为总样本数

在不平衡问题中,少数类被错分的代价变大,而总精度默认所有样本的错分代价相等。

AUC

学术界采用AUC(ROC曲线下部的面积)值度量不平衡问题的性能.

ROC: Receiver Operating Characteristic

AUC: the Area Under the ROC Curve

求解AUC有两种方法:

1.公式法:

AUC=S0n0(n0+1)/2n0n1AUC = \frac{S_0 - n_0(n_0+1)/2}{n_0n_1}

Tips : 只讲排序,不讲对错

S_0 为 正类样本排序号(位置)之和;公式法排序为升序

n_0 为正类样本数

n_1 为负类样本数

精度,AUC,查准率,查全率,F值

如上图:

classifier 1:

S0=5+7+8+9+10=39S_0 = 5+7+8+9+10=39

n0=5n_0 = 5

n1=5n_1 = 5

AUC=24/25AUC = 24 / 25

classifier2 同样的 :

AUC=16/25AUC = 16 / 25

由此得出,classifier 1 更好一些

2.积分法(求面积)
精度,AUC,查准率,查全率,F值

如上图,对应classifier1:

1.位置降序开始,先是4个正类,所以纵轴偏移 4 * 1/5 = 0.8

2.然后一个负类: 横轴方向 偏移一个0.2

3.以此类推 ,最后得AUC = 0.96

查准率

查准率,准确率,精确率 表述同一概念:precision rate PR

PR 针对预测结果而言,表述 预测为正类得样本中,有多少是真正得正类样本

ppr=TPTP+FPp_{pr} = \frac{TP}{TP+FP}

注意:精度:accuracy 与PR 完全不同

查全率

查全率, 召回 是同一表述 recall rate:RR 有时也称灵敏度

prr=TPTP+FNp_{rr} = \frac{TP}{TP+FN}

实际上也就是:正类预测精度(positive accuracy)

查准率和查全率的关系:

精度,AUC,查准率,查全率,F值

F值

F值(F-Measure)是PR 和 RR 的加权调和平均:

表达了对查全率和查准率得偏好程度
alpha > 1时,偏向查全率。

Pf=(1+α2)pprprrα2ppr+prrP_{f} = \frac{(1+\alpha^2)p_{pr}*p_{rr}}{\alpha^2*p_{pr}+p_{rr} }

当alpha=1 时,就是常见的F1值

Pf1=2pprprr(ppr+prr)P_{f1} = \frac{2p_{pr}*p_{rr}}{(p_{pr}+p_{rr} )}

当 F值较高时,说明方法是有效的。