分类(Classification)算法评估指标

混淆矩阵(Confusion Matrix):真实值,预测值,预测值和真实值之间的关系。
分类(Classification)算法评估指标

True positive (TP) :图中的11,真实值为Positive,预测正确(预测值为Positive)
True negative (TN):图中的00,真实值为Negative,预测正确(预测值为Negative)
False positive (FP):图中的01,真实值为Negative,预测错误(预测值为Positive)
False negative (FN):图中的10,真实值为Positive,预测错误(预测值为 Negative)

1、准确度(Accuracy):所有预测正确的所有样本除以总样本,通常来说越接近1越好(对角线)
分类(Classification)算法评估指标

缺点:样本数据严重不均衡的情况不能使用。

2、精确度(Precision):表示所有预测得到的正样本中,有多少是真实的正样本(竖:第一列)
分类(Classification)算法评估指标
3、召回度(Recall):表示真实正样本有多少被预测正确(横:第一行)
分类(Classification)算法评估指标

理解:宁可错杀一万,绝不放过一个。(如地震预测,嫌疑人是真的犯人)

4、F-score:平衡精确度和召回率的综合性指标,在[0,1]之间,越接近1越好。

分类(Classification)算法评估指标
5、假负率:也叫错误拒绝率,表示真实正样本有多少被预测错误,即预测为负样本(横:第一行)
分类(Classification)算法评估指标

注意:Recall + FNR = 1

6、特异值:表示真实负样本有多少被预测正确(横:第二行)
分类(Classification)算法评估指标

7、假正率:也叫错误接受率,表示真实负样本有多少被预测错误,即预测为正样本(横:第二行)分类(Classification)算法评估指标
8、ROC曲线

  • 定义:不同阈值情况下,假正率FPR为横坐标,召回率Recall为纵坐标的曲线。
  • 判断:对于一条凸型ROC曲线来说,曲线越靠近左上角越好,越往下越糟糕。
  • 评价指标:AUC面积,即ROC曲线下方的面积,值越大,ROC曲线越接近左上角,模型就越好。
    分类(Classification)算法评估指标

7、DET曲线

  • 定义:不同阈值情况下,假正率FPR为横坐标,假负率FNR为纵坐标的曲线。
  • 判断:对于一条凹型DET曲线来说,曲线越靠近左下角越好,越往上越糟糕。
  • 评价指标:等错误率EER(Equal Error Rate),即FRR与FAR相等时的值,即错误接受率与错误拒绝率相等时的值,该值越小,曲线越靠近左下角,效果越好。
    分类(Classification)算法评估指标

注意:ROC曲线上将坐标点(0,1)和(1,0)连接起来,与ROC曲线的交点所对应的FPR值就是EER 。

参考:

11565 P-R、ROC、DET 曲线及 AP、AUC 指标全解析(上)

机器学习评估指标

菜菜的scikit-learn课堂— sklearn中的支持向量机SVM