机器学习笔记-第二章模型评估与选择
一种训练集一种算法
- 2.1经验误差与拟合(简述)
(1)问题简述
以手写字体识别为例
m样本数量,比如有10000张手写字体图片
Y样本正确的数量,比如第一章图片是1,第二张图片是7
使用模型进行猜测,对一万张图片进行判断,预测的结果是Y’
其中a个错了
(2)错误率、精度、误差
error rate错误率:E=a/m
accuracy精度:1-E
error误差:|Y-Y’|
(3)基本概念
训练误差/经验误差:训练集上的误差
泛化误差:未来样本中的误差
过拟合
欠拟合
注意:训练误差不是越小越好,非常大是欠拟合,非常小是过拟合,泛化误差越小越好
- 2.2评估方法(训练集验证集与测试集)
2.2.1泛化能力
即模型对没有见过的数据的预测能力
训练集vs测试集
2.2.2Training set训练集
2.2.3testing set测试集的保留方法
留出法
很简单的三七分,二八分
但是要注意测试集与训练集同分布
或者进行多次随机划分,训练出多个模型,最后取平均值
交叉验证法
k折交叉验证
缺点:数据量要求较大时,对算力要求较高
如果分的小集合中数据只有一个那么是留一法
自助法
原理:
适用:数据集较小难以划分的时候
缺点:是改变初始数据集分布,会引入估计偏差
2.2.4validation set验证集
调参很难,很多参数是人为规定的
比如三个参数,每个参数5个候选值
对于一个训练集/测试集就有5^3=125个模型需要考察
为了调参,经常会加一个数据集,验证集
训练集训练,验证集看结果,调参,再看验证集结果
参数调完,最后再测试集上看结果
2.3性能度量(具体公式)
(1)性能度量performance management
(2)任务描述
(3)均方误差mean squared error
公式解释:
(4)错误率与精度
1、error rate错误率
其中小双杠是统计,满足括号里的条件的元素的个数的意思
2、accuracy精度
(5)查准率、查全率与F1
四个概念区分:
错误率:有多少比例的瓜被判别错误
精度:1-错误率
查准率:挑出来的瓜中有多少比例是好瓜
查全率:所有好瓜中有多少比例被挑出来
混淆矩阵confusion matirx
True positive、false positive、true negative、false negative
查准率P-percision
查全率R-recall
公式解释:
P-R曲线
P-R曲线有时候是以查准率-查全率,有时时真正例率-假正例率
(1)例子说明
手写数字识别,分类器,二分类:是5vs不是5
实际上是随着阈值的移动,查全率与查准率成反向关系
(2)混淆矩阵
(3)P-R反向变动关系原理
(4)阈值-PR图像
(5)P-R图像
(6)最优阈值的确定(确定好瓜与不好瓜)
方法一:使用平衡点Break-Even Point(BEP)
R=P时R与P的值
方法二:F1度量
方法三Fbeta
注
n个二分类实现的多分类问题
1.先分别计算,再求平均值
macro-P宏查准率
macro-R宏查全率
macro-F1宏F1
2.先平均在计算
micro-P
micro-R
micro-F1
一种训练集多种算法
P-R曲线
(1)比较ABC三个模型的好坏:
1、首先可以确定B和A优于C,BA之间优于交叉无法确定
2、对于AB
方法一:比较AB面积的大小,在一定程度上表征了模型的优劣,但是这个值不容易估算
方法二:F1
方法三:Fbeta
2.3.3 ROC与AUC
ROC(Receiver Operation Characteristic)
TPR,True Positive Rate(真正例率)
False Positive Rate(假正例率)
ROC示意图
AUC(Area Under ROC Curve)
(1)概念
相当于ROC的面积
(2)公式
(3)排序损失
下图是证明AUC和排序损失的关系
代价敏感曲线和后面的2.4、2.5没做笔记
多种训练集一种算法
测试集上的性能再多大程度上保证真实的性能