机器学习笔记5——系统设计
关键字:偏斜类,查准率,召回率
一、垃圾邮件分类的例子
1.因为垃圾邮件有一些典型的出现比较多的词,比如buy,diccount,hurry等等,所以可以先从训练集中选择出现频率最高的一些词,把他们放到一个向量里去,这个向量叫特征变量。然后判断的时候就是如果单词出现了,对应的地方就记为1,否则记为0.。最好在交叉验证向量集上做误差分析。
二、不对称分类的误差评估和衡量标准
1、偏斜类(通常把它的值定义为1)
这类的样本比其他类的样本少很多(比如癌症判断,实际上只有0.5%的人得了癌症,得了癌症的人比不得癌症的人少很多,所以这0.5%得了癌症的人叫偏斜类)
2、查准率
还是以癌症病人为例,首先是类似概率论与数理统计里面的拒真和受伪判断两个的一张表(实际上是0还是1,判断出来的是0还是1,一共四种组合,每个组合都有个称呼)
查准率=查准率衡量预测的准确度,越高越好
提高差准率的方法:将阈值提高0.2,就是只有我们预测>0.7的时候才告诉病人患病了。这样可以提高准确率。
就是只有我们预测<0.7的时候才告诉病人患病了。这样可以提高准确率。但是这个做法会导致召回率变低。
3、召回率
召回率
对于真的得了癌症的病人,我们有多大的概率能预测出他们得了癌症,越高越好
召回率=
提高召回率的方法:将阈值降低,比如降低0.2,就是只有我们预测>0.3的时候才告诉病人患病了。这样可以提高准确率。
4、查准率与召回率是相互矛盾的,一个低另一个高,不严谨的说他们是成反比的
如何在二者之间获得一个比较均衡的值?选取高查准率还是高召回率呢?
可以通过计算F1值,F值越高越好,那么这个时候查准率和召回率都是比较大的,其中P,R分别表示查准率和召回率。
这是观看吴恩达网易云机器学习系列做的笔记
图片来源于视频课件