机器学习笔记-2.模型评估与选择之评估指标
学习内容
- 评估方法
- 评估指标
- 比较检验
二. 评估指标
1. 评价指标定义
所谓评估指标就是衡量模型泛化能力好坏的评估标准,反映了任务需求;
使用不同的评估指标值往往会导致不同的评估结果。
下图是监督学习的一般评估指标:
2. 分类任务的评价指标
在分类测试任务中,给定测试样例集,评估分类模型的性能就是把对每一个待测样本的分类结果和他的真实标记比较。
2.1 准确率和错误率(最常用)
- 准确率就是分对样本占测试样本总数的比例;准确率也称精度。
- 错误率就是分错样本占测试样本总数的比例。
2.2 查准率和查全率
由于准确率和错误率将每个类看的同等重要,因此不适合用来分析类不平衡数据集。在类不平衡数据集中,正确分类稀有类比正确分类多数类更有意义。此时查准率和查全率比准确率和错误率更适合。
对二分类问题,统计样例的真实类别与学习器预测类型的组合,得到如下“混淆矩阵”:
查准率(P) 就是被分为正类的样本中实际为正类的样本比例:
查全率(R )就是实际为正类的样本中被分为正类的样本比例:
查准率和查全率是一对矛盾的度量。一般来说,查准率高时,查全率偏低;查全率高时,查准率偏低。通常只在一些简单任务中,查准率和查全率都偏高。
为综合考虑查准率和查全率,它们的调和均值F1度量被提出:
考虑对查准率和查全率的重视不同,引入它们的加权调和均值
= 1:标准的F1; >1: 偏重查全率;<1: 偏重查准率。
2.3 ROC 与 AUC
很多学习器是为测试样本产生一个概率预测,因此可以根据预测的概率将测试样例进行排序,把最可能是正例的排在最前面,把最不可能是正例的排在最后面。这样,分类过程就相当于在这个排序中以某个“截断点”(分类阈值)将样本分为两部分,前一部分判为正例,后一部分判为反例。
因此,排序本身的质量好坏体现了分类器在不同任务下的泛化性能。ROC曲线则是从这个角度出发来研究学习器泛化性能的有力工具。
ROC 曲线,全称是“受试者工作特征”( Receiver Operating Characteristics )曲线。根据分类器的预测结果对样例排序,并按此顺序依次选择不同的“截断点”逐个把样例作为正例进行预测,每次计算出当前分类器的“真正率”和“假正率”,然后分别以它们为纵轴和横轴绘图,就可得到ROC曲线。
- 真正率(TPR )就是被分为正类的正样本比例
- 假正率(FPR )就是被分为正类的负样本比例:
若某个分类器的ROC曲线被另一个分类器的曲线“包住”,则后者性能优于前者;否则如果曲线交叉,可以根据ROC曲线下面积的大小进行比较,即AUC(Area Under ROC Curve)
- 直接计算:
- 利用假正例率:
例子:
2.4 代价敏感错误与代价曲线
不同类型的错误所造成的后果不同。如
- 把患者诊断为健康人
- 把健康人诊断为患者
对于2的错误是增加了进一步检查的麻烦,但是对于1的后果却可能是丧失了拯救生命的最佳时机。
前面介绍的性能度量,大都隐式地假设了“均等代价”,而为权衡不同类型错误所造成的不同损失,应为错误赋予:“非均等代价”。
下图为二分代价矩阵:
代价敏感错误率为:
在这样的非均等代价下,ROC曲线不能直接反映出学习器的期望总体代价,而“代价曲线”则可以达到目的。
代价曲线的横轴是正例概率代价P(+)cost,纵轴是归一化代价 。
其中,p是样例为正例的概率;FNR是假反例率;FPR是假正例率。
绘制方法:
ROC曲线上取一个点(FPR,TPR);取相应的(0,FPR)和(1,FNR),连成线段;取遍ROC曲线上所有点并重复前步骤;
所有线段的下界就是学习器期望总体代价。
实际上就是通过将样例为正例的概率p设为0和1,来作出曲线的所有切线,最后连成曲线。