精度,AUC,查准率,查全率,F值
经典的精度:即 总精度or总正确率:
△N为被错分的样本数; N为总样本数
在不平衡问题中,少数类被错分的代价变大,而总精度默认所有样本的错分代价相等。
AUC
学术界采用AUC(ROC曲线下部的面积)值度量不平衡问题的性能.
ROC: Receiver Operating Characteristic
AUC: the Area Under the ROC Curve
求解AUC有两种方法:
1.公式法:
Tips : 只讲排序,不讲对错
S_0 为 正类样本排序号(位置)之和;公式法排序为升序
n_0 为正类样本数
n_1 为负类样本数
如上图:
classifier 1:
classifier2 同样的 :
由此得出,classifier 1 更好一些
2.积分法(求面积)
如上图,对应classifier1:
1.位置降序开始,先是4个正类,所以纵轴偏移 4 * 1/5 = 0.8
2.然后一个负类: 横轴方向 偏移一个0.2
3.以此类推 ,最后得AUC = 0.96
查准率
查准率,准确率,精确率 表述同一概念:precision rate PR
PR 针对预测结果而言,表述 预测为正类得样本中,有多少是真正得正类样本
注意:精度:accuracy 与PR 完全不同
查全率
查全率, 召回 是同一表述 recall rate:RR 有时也称灵敏度
实际上也就是:正类预测精度(positive accuracy)
查准率和查全率的关系:
F值
F值(F-Measure)是PR 和 RR 的加权调和平均:
表达了对查全率和查准率得偏好程度
alpha > 1时,偏向查全率。
当alpha=1 时,就是常见的F1值
当 F值较高时,说明方法是有效的。