周志华 机器学习 Day3

模型评估与选择

性能度量

查准率、查全率与F1

例如,在信息检索中,我们常常关心的是“检索出的信息中有多少比例是用户感兴趣的”,“查准率”与“查全率”更为适合。

对于二分类的问题,可将样例根据真实类别与学习器预测类别的组合划分为真正例(TP)、假正例(FP)、真反例(TN)、假反例(FN),则TP+FP+TN+FN=样例总数,分类结果的混淆矩阵如下图。

周志华 机器学习 Day3

查准率P与查全率R分别定义为:

周志华 机器学习 Day3

一般来说,查准率与查全率是一对矛盾体,一边高可能另一边低,我们可根据学期起的预测结果对样例进行排序,排在前的是“最可能”的样本,排在后的是“最不可能”的样本,按此顺序逐个把样本作为正例进行预测,可得到每次的查准率与查全率,进而得到“P-R曲线”,如下图。

周志华 机器学习 Day3

P-R图可直观显示出学习器在样本总体上的查全率、查准率。若一个学习器的P-R曲线被另外一个学习器的P-R曲线完全“包住”,则可断言后者比前者的性能更优。如图2.3,可断言A的性能优于C;若产生交叉,如A与B,则通过面积的判断孰优。

F1度量

周志华 机器学习 Day3

有时候我们对查准率和查全率的重视不同,有以下公式(查全率/查准率)。

周志华 机器学习 Day3

其中,β>0度量了查全率对查准率的相对重要性;β=1时退化为标准的F1;β>1时查全率有更大影响;β<1时查准率有更大影响。

很多时候,我们有多个二分类混淆矩阵,此时我们将有集中做法考察查全率与查准率。

1、分别计算出各个混淆矩阵的查准率与查全率,然后取其均值

周志华 机器学习 Day3

2、先计算出各混淆矩阵的TP、FP、TN、FN,再取其均值。

周志华 机器学习 Day3

周志华 机器学习 Day3

很多学习器是为测试样本产生一个实值或概率预测,然后将其与一个分类阈值进行比较,若大于则为正类,否则为反类。

ROC全称“受试者工作特征”,纵轴为“真正例率”(TPR),横轴为“假正例率”(FPR),其定义为

周志华 机器学习 Day3

ROC与AUC图如下,对角线对应于“随机擦侧”模型,而点(0,1)对应于“理想模型”。

周志华 机器学习 Day3

AUC(ROC曲线下的面积)的公式为

周志华 机器学习 Day3

形式化看,AUC考虑的是样本预测的排序质量,因此它与排序误差有紧密联系。给定m+个正例和m-个反例,令D+和D-表示正反例集合,则排序“损失”定义为

周志华 机器学习 Day3

比较检验

对性能的评估比较,不仅仅是数值的比较,涉及的方面较多:第一,我们通过实验评估方法获得的性能测试与希望得到的结果是有差异的;第二,测试集上的性能与测试集本身的选择有很大关系;第三,很多机器学习算法本身有一定的随机性,相同的参数在同一测试集上运行,结果亦会有不同。

1、假设检验

假定测试样本从样本总体分布中独立采样而得,那么泛化错误率为ε的学习器将其中m’个样本误分类,其余样本全都分类正确的概率是ε^m'(1-ε)^(m-m');由此可得ε上帽*m个样本误分类的概率如下图,这也表达了再包含m个样本的测试集上,泛化错误率为ε的学习器北侧的测试错误率为ε上帽的概率:(ε上帽为测试错误率

周志华 机器学习 Day3