推荐模型评价指标 AUC
推荐中常用的模型评价指标有准确率,召回率,F1-score和AUC。
1. 什么是AUC
AUC指标是一个[0,1]之间的实数,代表如果随机挑选一个正样本和一个负样本,分类算法将这个正样本排在负样本前面的概率。值越大,表示分类算法更有可能将正样本排在前面,也即算法准确性越好。
2. AUC的计算方法
- 绘制ROC曲线,ROC曲线下面的面积就是AUC的值
- 假设总共有(m+n)个样本,其中正样本有m个,负样本有n个,则共有m*n个样本对。如果正样本预测为正样本的概率值大于负样本预测为正样本的概率值记为1,反之为0,求和后除以(m*n)就是AUC的值
- 对所有样本进行打分,按分数排序,第一名的rank为m+n,第二名的rank为m+n-1,往后依次递减,则
第三种的计算方法与第二种是一样的,分子也是计算满足正样本被预测为正样本的概率值大于负样本被预测为正样本的概率值的<正样本,负样本>对个数。将所有正样本排在前面的样本对求和,再减去<正样本,正样本>对的个数。
3. ROC曲线
数学上的背景
考虑一个二分类问题,分类结果有四种情况:
(1) 若sample是正类,并且被预测为正类,即为真正类(True Postive TP)
(2) 若sample是正类,但被预测成为负类,即为假负类(False Negative FN)
(3) 若sample是负类,但被预测成为正类,即为假正类(False Postive FP)
(4) 若sample是负类,并且被预测为负类,即为真负类(True Negative TN)
实际\预测 | 1 | 0 | |
---|---|---|---|
1 | TP | FN | Actual Positive TP+FN |
0 | FP | TN | Actual Negative FP+TN |
Predicted Positive TP+FP | Predicted Negative FN+TN |
下面是一个简单的图例:
line1和line2分别表示一个阈值,以line1为例,左边是正样本的分布,右边是负样本的分布,虚线左侧预测为正,右侧预测为负。那么line1左侧白色部分的面积即为TP,虚线部分的面积为FP,line1右侧白色部分的面积为TN,虚线部分的面积为FN。
定义:
准确率(Accuracy ACC):
真正类率(True Postive Rate TPR): ,代表分类器预测的正类中实际正实例占所有正实例的比例
负正类率(False Postive Rate FPR):,代表分类器预测的正类中实际负实例占所有负实例的比例。
真负类率(True Negative Rate TNR):,描述识别出的负例占所有负例的比例
TPR也叫敏感度(sensitivity),TNR称为特异度(specificity)
结合上面的图,当虚线从line1移至line2,TPR在变大,FPR也在变大,TNR在变小,即敏感度变高,特异度变低。举一个实例,假设我们要预测一个人是否有糖尿病,有则为正样本,无则为负样本,那么左边是糖尿病人的血糖水平分布,右边是健康人的血糖水平分布。我们把阈值定为line1时,特异度高,健康人误诊率低,当阈值为line2时,敏感度高,基本大部分糖尿病人都可以被检测出来,漏诊率低。
ROC曲线
如果我们以特异度TNR为横轴,敏感度TPR为纵轴画出样本的曲线,即为ROC曲线。
举个例子:
sample | class | score |
---|---|---|
1 | p | 0.9 |
2 | p | 0.8 |
3 | n | 0.7 |
4 | p | 0.6 |
5 | p | 0.55 |
6 | p | 0.54 |
7 | n | 0.53 |
8 | n | 0.52 |
9 | p | 0.51 |
10 | n | 0.505 |
11 | p | 0.4 |
12 | n | 0.39 |
13 | p | 0.38 |
14 | n | 0.37 |
15 | n | 0.36 |
16 | n | 0.35 |
17 | p | 0.34 |
18 | n | 0.33 |
19 | p | 0.30 |
20 | n | 0.1 |
然后将socre从高到低取为阈值,大于等于阈值预测为正例,小于阈值预测为负例。当阈值为0.9时,TPR = 1/10 = 0.1,TNR = 0/10 = 0;阈值为0.8时,TPR = 1/10 = 0.1,TNR = 0/10 = 0;阈值为0.7时,TPR = 2/10 = 0.2,TNR = 1/10 = 0.1,以此类推,可以画出ROC曲线如下所示: