4.4.2分类模型评判指标（四） - ROC，AUC，GINI，KS，Lift，Gain，MSE总结

简介

分类模型的评判指标光是图就有好多，ROC，AUC，GINI，KS，Lift，Gain，MSE，这些有些是图有些是指标，放在一起乱七八糟搞得人分不清东南西北。所以这里我先整体给大家一个直观的介绍。省的以后再遇上这么多图的时候完全分不清是谁是谁。

三句话概括版本：

Confusion Matrix -> Lift，Gain，ROC。

ROC -> AUC，KS -> GINI。

MSE独立出来。

在介绍之前，我们先重新明确一下这些图表的名称，中文、英文、简称，全部来熟悉一下：

4.4.2分类模型评判指标（四） - ROC，AUC，GINI，KS，Lift，Gain，MSE总结

记住这个之后，我们来理解一下他们之间的关系。

其实，这些图之间的关系不是很复杂。我尝试着用一个小故事概括一下8位登场人物之间的关系。

故事是这样的：

首先，混淆矩阵是个元老，年龄最大也资历最老。创建了两个帮派，一个夫妻帮，一个阶级帮。

之后，夫妻帮里面是夫妻两个，一个Lift曲线，一个Gain曲线，两个人不分高低，共用一个横轴。

再次，阶级帮里面就比较混乱。

1. 帮主是ROC曲线。

2. 副帮主是KS曲线，AUC面积

3. AUC养了一个小弟，叫GINI系数。

最后，MSE是世外高人，游离在整个帮派系统之外。

好了，现在咱们应该比较清楚谁跟谁关系好，哪些曲线指标应该抱成一团儿了吧。

混淆矩阵其实就是交叉对比真实值与预测值的结果。很像Excel中的透视表。它的目的是告诉我们模型预测对了几个，错了几个。

下图就是混淆矩阵：

4.4.2分类模型评判指标（四） - ROC，AUC，GINI，KS，Lift，Gain，MSE总结

最基础的混淆矩阵中只包含4个指标，TP，FP，FN，TN。

用这四个指标相互进行运算，得到了Precision，Recall，Specificity，FPR等众多次级指标。

这些指标，就是构成ROC，KS，AUC，Lift，Gain的基础。

对单一图表的讲解我都有单独发过文章讲解过，所以这里不会详细的把所有制作图表的过程都讲出来。

下图是7个曲线与指标的综合对比图。

4.4.2分类模型评判指标（四） - ROC，AUC，GINI，KS，Lift，Gain，MSE总结

再补充一句，我查看了许多的资料，KS曲线的横轴有资料上写说是阈值，有些资料上写是数据样本的所占百分比。具体是否对其有官方的定义，我确实还没有能够找到。

但是，从样本测评的角度来讲，不管是样本的百分比，还是阈值，其实都能达到同样的效果。

所以，从我个人的理解，横轴选用阈值还是样本百分比，只是模型解释的角度不同。在真实的生活与工作中，这些图都是在为了解释模型、评定模型准确性服务。所以了解如何解释模型，才是最为关键。

上述曲线我有专门的文章去独立讲解，所以这里只是将他们放在一起总结出来。方便在脑中形成整体的框架。