机器学习评估指标:准确率( Accuracy )、精确率(Precision)、召回率(Recall)、P-R 曲线、均方根误差

在模型评估过程中,分类问题、排序问题、回归问题往往需要使用不同的指标进行评估。在诸多的评估指标中,大部分指标只能片面地反映模型的一部分性能。 如果不能合理地运用评估指标,不仅不能发现模型本身的问题,而且会得出错误的结论。

准确率( Accuracy )

准确率是指分类正确的样本占总样本个数的比例,即:
机器学习评估指标:准确率( Accuracy )、精确率(Precision)、召回率(Recall)、P-R 曲线、均方根误差

其中 n c o r r e c t n_{correct} ncorrect为被正确分类的样本个数, n t o t a l n_{total} ntotal为总样本的个数。
准确率是分类问题中最简单也是最直观的评价指标,但存在明显的缺陷。比如,当负样本占 99% 时,分类器把所有样本都预测为负样本也可以获得 99% 的准确率。所以,当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。

精确率(Precision)与召回率(Recall)

精确率是自分类正确的正样本个数占分类器判定为正样本的样本个数的比例。
召回率是指分类正确的正样本个数占真正的正样本个数的比例。

Precision 值和 Recall 值是既矛盾又统一的两个指标,为了提高Precision值,分类器需要尽量在“更高把握”时才把样本预测为正样本,但此时往往会因为过于保守而漏掉很多“没有把握”的正样本,导致 Recall 值降低。

下面将通过介绍P-R曲线来说明为什么Precision和 Recall 是既矛盾又统一的两个指标

P-R 曲线

P-R 曲线的横轴是召回率,纵轴是精确率。 对于一个排序模型来说,其P-R 曲线上的一个点代表着,在某一阈值下,模型将大于该阈值的结果判定为正样本, 小于该阈值的结果判定为负样本,此时返回结果对应的召回率和精确率。 整条 P-R 曲线是通过将阈值从高到低移动而生成的。上图是 P-R 曲线样例图,其中实线代表模型A 的 P-R 曲线,虚线代表模型B 的 P-R 由线。原点附近代表当阈值最大时模型的精确率和召回率。
机器学习评估指标:准确率( Accuracy )、精确率(Precision)、召回率(Recall)、P-R 曲线、均方根误差

由图可见,当召回率接近于 0 时,模型 A 的精确率为 0.9 ,模型 B的精确率是1.0. 这说明模型 B 得分前几位的样本全部是真正的正样本,而模型 A 即使得分最高的几个样本也存在预测错误的情况。 并且,随着召回率的增加,精确率整体呈下降趋势。 但是,当召回率为 1时,模型A 的精确率反而超过了模型 B。 这充分说明,只用某个点对应的精确率和召回率是不能全面地衡量模型的性能。只有通过P-R 曲线的整体表现,才能够对模型进行更为全面的评估。Precision 值和 Recall 值是既矛盾又统一的两个指标,为了提高Precision 值,分类器需要尽量在“更高把握”时才把样本预测为正样本,但此时往往会因为过于保守而漏掉很多“没有把握”的正样本,导致 Recall 值降低。

F1 score

除P-R 曲线之外, F1 score 和 ROC 曲线也能综合地反映一个排序模型的性能。 F I score 是精准率和召回率的调和平均值, 定义为
机器学习评估指标:准确率( Accuracy )、精确率(Precision)、召回率(Recall)、P-R 曲线、均方根误差

均方根误差(Root Mean Square Error, RMSE)

RMSE 经常被用来衡量回归模型的好坏:
机器学习评估指标:准确率( Accuracy )、精确率(Precision)、召回率(Recall)、P-R 曲线、均方根误差

其中 , y i y_i yi 是第 i个样本点的真实值, y i ′ y'_i yi只是第 i个样本点的预测值,n是样本点的个数。
一般情况下, RMSE 能够很好地反映回归模型预测值与真实值的偏离程度。 但在实际问题中,如果存在个别偏离程度非常大的离群点( Outlier )时,即使离群点数量非常少 , 也会让 RMSE 指标变得很差。

如何处理离群点

可以从三个角度来思考。
(1):如果我们认定这些离群点是 “噪声点” 的话,就需要在数据预处理的阶段把这些噪声点过滤掉。
(2)如果不认为这些离群点是“噪声点”的话,就需要进一步提高模型的预测能力,将离群点产生的机制建模进去。
(3)可以找一个更合适的指标采评估该模型。,比如平均绝对百分比误差( Mean Absolute Percent Error, MAPE ),定义为
机器学习评估指标:准确率( Accuracy )、精确率(Precision)、召回率(Recall)、P-R 曲线、均方根误差

相比 RMSE, MAPE 相当于把每个点的误差进行了归一化,降低了个别离群点带来的绝对误差的影响 。