机器学习基石------validation

核心目的:如何选择一个Eout最小的模型

可能的选择方式:

1.选择一个Ein最小的模型
问题:对于越复杂的模型 模型的拟合能力就越强 如果单单把Ein作为选择的评判标准 那么相对于复杂模型简单模型永远不会被选到;同时这样不加正则一定会比正则好 因为不加正则就是单纯最小化 Ein 会overgitting
转化思路
不使用Ein 而是使用Evalidation
此时最重要的是validation的大小 k
我们想要validation 是和test独立同分布的
所有我们要在train中随机抽样出validation set
这时候如果validation set足够大的时候可以保证Evalidation和Eout相似
但是 因为validation变大 对应的train set变小 使得在hypothesis set中算法选择的g要比使用全部数据作为train set 选择的g来的差
如果k比较小的时候
使用全部数据 和使用分割出validation set的数据得到的hypothesis set中选择的g相差无几
但是Evalidation和Eout不能保证相似
在实践的时候大多使用1/5数据作为validation

机器学习基石------validation

机器学习基石------validation

缺点:
1.花费训练时间长 计算量大
2. 选择会造成跳动

5折或者10折较为常见