机器学习-模型评估指标与计算方法

在机器学习、数据挖掘、推荐系统完成建模之后，需要对模型的效果做评价。业内目前常常采用的评价指标有准确率(Precision)、召回率(Recall)、F值(F-Measure)等，下图是不同机器学习算法的评价指标，下文讲对其中某些指标做简要介绍。

机器学习-模型评估指标与计算方法

回归模型评价

回归算法的评价指标就是MSE，RMSE，MAE、R-Squared

机器学习-模型评估指标与计算方法

MSE，均方误差（Mean Square Error），范围[0,+∞)，当预测值与真实值完全吻合时等于0，即完美模型；误差越大，该值越大。

机器学习-模型评估指标与计算方法

分类模型评价

混淆矩阵

机器学习-模型评估指标与计算方法

True Positive(真正，TP)：将正类预测为正类数

True Negative(真负，TN)：将负类预测为负类数

False Positive(假正，FP)：将负类预测为正类数误报 (Type I error)

False Negative(假负，FN)：将正类预测为负类数→漏报 (Type II error)

转义为：

机器学习-模型评估指标与计算方法

1、准确率（Accuracy）

准确率(accuracy)计算公式为：

机器学习-模型评估指标与计算方法

注：准确率是我们最常见的评价指标，而且很容易理解，就是被分对的样本数除以所有的样本数，通常来说，正确率越高，分类器越好。
准确率确实是一个很好很直观的评价指标，但是有时候准确率高并不能代表一个算法就好。比如某个地区某天地震的预测，假设我们有一堆的特征作为地震分类的属性，类别只有两个：0：不发生地震、1：发生地震。一个不加思考的分类器，对每一个测试用例都将类别划分为0，那那么它就可能达到99%的准确率，但真的地震来临时，这个分类器毫无察觉，这个分类带来的损失是巨大的。为什么99%的准确率的分类器却不是我们想要的，因为这里数据分布不均衡，类别1的数据太少，完全错分类别1依然可以达到很高的准确率却忽视了我们关注的东西。再举个例子说明下。在正负样本不平衡的情况下，准确率这个评价指标有很大的缺陷。比如在互联网广告里面，点击的数量是很少的，一般只有千分之几，如果用acc，即使全部预测成负类（不点击）acc也有 99% 以上，没有意义。因此，单纯靠准确率来评价一个算法模型是远远不够科学全面的。

2、错误率（Error rate）

错误率则与准确率相反，描述被分类器错分的比例，error rate = (FP+FN)/(TP+TN+FP+FN)，对某一个实例来说，分对与分错是互斥事件，所以accuracy =1 - error rate。

3、灵敏度（sensitive）

sensitive = TP/P，表示的是所有正例中被分对的比例，衡量了分类器对正例的识别能力。

4、特效度（sensitive）

specificity = TN/N，表示的是所有负例中被分对的比例，衡量了分类器对负例的识别能力。

5、精确率、精度（Precision）查准率。即正确预测为正的占全部预测为正的比例。个人理解：真正正确的占所有预测为正的比例。

机器学习-模型评估指标与计算方法

表示被分为正例的示例中实际为正例的比例。

6、召回率（recall），查全率。即正确预测为正的占全部实际为正的比例。个人理解：真正正确的占所有实际为正的比例。

机器学习-模型评估指标与计算方法

7、综合评价指标（F-Measure）
P和R指标有时候会出现的矛盾的情况，这样就需要综合考虑他们，最常见的方法就是F-Measure（又称为F-Score）。
F-Measure是Precision和Recall加权调和平均：

机器学习-模型评估指标与计算方法

当参数α=1时，就是最常见的F1，也即

机器学习-模型评估指标与计算方法

公式转化之后为：

机器学习-模型评估指标与计算方法

可知F1综合了P和R的结果，当F1较高时则能说明试验方法比较有效。

地震的预测对于地震的预测，我们希望的是Recall非常高，也就是说每次地震我们都希望预测出来。这个时候我们可以牺牲Precision。情愿发出1000次警报，把10次地震都预测正确了；也不要预测100次对了8次漏了两次。

“宁错拿一万，不放过一个”，分类阈值较低

嫌疑人定罪基于不错怪一个好人的原则，对于嫌疑人的定罪我们希望是非常准确的。即使有时候放过了一些罪犯，但也是值得的。因此我们希望有较高的Precision值，可以合理地牺牲Recall。

“宁放过一万，不错拿一个”，“疑罪从无”，分类阈值较高

问题 7：某一家互联网金融公司风控部门的主要工作是利用机器模型抓取坏客户。互联网金融公司要扩大业务量，尽量多的吸引好客户，此时风控部门该怎样调整Recall和Precision？如果公司坏账扩大，公司缩紧业务，尽可能抓住更多的坏客户，此时风控部门该怎样调整Recall和Precision？

如果互联网公司要扩大业务量，为了减少好客户的误抓率，保证吸引更多的好客户，风控部门就会提高阈值，从而提高模型的查准率Precision，同时，导致查全率Recall下降。如果公司要缩紧业务，尽可能抓住更多的坏客户，风控部门就会降低阈值，从而提高模型的查全率Recall，但是这样会导致一部分好客户误抓，从而降低模型的查准率 Precision。

根据以上几个案，我们知道随着阈值的变化Recall和Precision往往会向着反方向变化，这种规律很难满足我们的期望，即Recall和Precision同时增大。

8、其他评价指标

计算速度：分类器训练和预测需要的时间；

鲁棒性：处理缺失值和异常值的能力；

可扩展性：处理大数据集的能力；

可解释性：分类器的预测标准的可理解性，像决策树产生的规则就是很容易理解的，而神经网络的一堆参数就不好理解，我们只好把它看成一个黑盒子。

下面来看一下ROC和PR曲线（以下内容为自己总结）：

1、ROC曲线：
ROC（Receiver Operating Characteristic）曲线是以假正率（FP_rate）和真正率（TP_rate）为轴的曲线，ROC曲线下面的面积我们叫做AUC，如下图所示：

机器学习-模型评估指标与计算方法

横坐标：1-Specificity，伪正类率(False positive rate，FPR，FPR=FP/(FP+TN))，预测为正但实际为负的样本占所有负例样本的比例；

机器学习-模型评估指标与计算方法

纵坐标：Sensitivity，真正类率(True positive rate，TPR，TPR=TP/(TP+FN))，预测为正且实际为正的样本占所有正例样本的比例。

机器学习-模型评估指标与计算方法

在一个二分类模型中，假设采用逻辑回归分类器，其给出针对每个实例为正类的概率，那么通过设定一个阈值如0.6，概率大于等于0.6的为正类，小于0.6的为负类。对应的就可以算出一组(FPR，TPR)，在平面中得到对应坐标点。随着阈值的逐渐减小，越来越多的实例被划分为正类，但是这些正类中同样也掺杂着真正的负实例，即TPR和FPR会同时增大。阈值最大时，对应坐标点为(0,0)，阈值最小时，对应坐标点(1,1)。

真正的理想情况，TPR应接近1，FPR接近0，即图中的（0,1）点。ROC曲线越靠拢（0,1）点，越偏离45度对角线越好。

AUC值。AUC (Area Under Curve) 被定义为ROC曲线下的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围一般在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而作为一个数值，对应AUC更大的分类器效果更好。

从AUC判断分类器（预测模型）优劣的标准：

AUC = 1，是完美分类器，采用这个预测模型时，存在至少一个阈值能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。
AUC = 0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。
AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。
一句话来说，AUC值越大的分类器，正确率越高。

三种AUC值示例：

机器学习-模型评估指标与计算方法

为什么使用ROC曲线

既然已经这么多评价标准，为什么还要使用ROC和AUC呢？因为ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡（class imbalance）现象，即负样本比正样本多很多（或者相反），而且测试数据中的正负样本的分布也可能随着时间变化。下图是ROC曲线和Precision-Recall（https://en.wikipedia.org/wiki/Precision_and_recall）曲线的对比：

机器学习-模型评估指标与计算方法

在上图中，(a)和(c)为ROC曲线，(b)和(d)为Precision-Recall曲线。(a)和(b)展示的是分类其在原始测试集（正负样本分布平衡）的结果，(c)和(d)是将测试集中负样本的数量增加到原来的10倍后，分类器的结果。可以明显的看出，ROC曲线基本保持原貌，而Precision-Recall曲线则变化较大。

机器学习-模型评估指标与计算方法

实例应用

我们的任务是为 100 名病人诊断一种在普通人群中患病率是 50% 的疾病。我们将假设一个黑盒模型，我们输入关于患者的信息，并得到 0 到 1 之间的分数。我们可以改变将患者标记为正例 (有疾病) 的阈值，以最大化分类器性能。我们将以 0.1 为增量从 0.0 到 1.0 评估阈值，在每个步骤中计算 ROC 曲线上的精度、召回率、F1 score 以及在 ROC 曲线上的位置。以下是每个阈值的分类结果：

机器学习-模型评估指标与计算方法

模型在每个阈值下的结果

我们将以阈值为 0.5 为例计算对应的召回率、精度、真正例率、假正例率。首先我们得到混淆矩阵：

机器学习-模型评估指标与计算方法

阈值为 0.5 时的混淆矩阵

我们可以利用混淆矩阵中的数值来计算召回率、精度和 F1 score：

机器学习-模型评估指标与计算方法

然后计算真正例率和假正例率来确定阈值为 0.5 时，模型在 ROC 曲线上对应的点。

为了得到整个 ROC 曲线，我们在每个阈值下都进行这个过程。你可能会想，这是相当乏味的，所以，我们用 python 语言来代替手工计算。用来做这些计算的 Juoyter Notebook 放在了 github 上，每个人都可以看到。最终的 ROC 曲线如下所示，点上面的数字是阈值。

机器学习-模型评估指标与计算方法

在这里我们可以看到，所有的概念都汇集到一起了！在阈值等于 1.0 的点，我们没有将任何病人归类为患病，因此模型的召回率和精度都是 0。随着阈值的减小，召回率增加了，因为我们发现更多的患者患有该疾病。然而，随着召回率的增加，精度会降低，因为除了增加真正例之外，还会增加假正例。在阈值为 0.0 的时候，我们的召回率是完美的——我们发现所有的患者都患有这种疾病——但是精度很低，因为有很多假正例。通过更改阈值并选择最大化 F1 score 的阈值，我们可以沿着给定模型的曲线移动。要改变整个曲线，我们需要建立一个不同的模型。

在每个阈值下最终模型的统计量如下表：

机器学习-模型评估指标与计算方法

基于 F1 score，整体最佳的模型出现在阈值为 0.5 的地方。如果我们想要在更大程度上强调精度或者召回率，我们可以选择这些指标上最佳时对应的模型。

结论

我们倾向于使用准确率，因为每个人都知道它意味着什么，而不是因为它是完成任务的最佳工具！虽然更适合的度量指标 (如召回率和精度) 看起来可能很陌生，但我们已经直观地了解了为什么它们在某些问题 (如不平衡的分类任务) 中有着更好的表现。统计学为我们提供了计算这些指标的形式化定义和方程。数据科学是关于寻找解决问题的正确工具的学科，而且在开发分类模型时，我们常常需要超越准确率（accuracy）的单一指标。了解召回率、精度、F1 score 和 ROC 曲线使我们能够评估分类模型，并应使我们怀疑是否有人仅仅在吹捧模型的准确率，尤其是对于不平衡的问题。正如我们所看到的，准确率（accuracy）并不能对几个关键问题提供有用的评估，但现在我们知道如何使用更聪明的衡量指标！