机器学习笔记七之机器学习诊断
本节目录:
- 评估假设
- 模型选择和交叉验证
- 诊断偏差和方差
- 正则化和偏差/方差
- 学习曲线 小结
假设我们需要用一个线性模型来预测房价,当我们运用训练好了的模型来预测未知数据的时候发现有较大的误差,下一步可以做什么?
改进机器学习性能的方法:
尝试减少特征的数量
尝试获得更多的特征
尝试增加多项式特征
尝试减少正则化程度
尝试增加正则化程度
具体使用时,我们应该运用一些机器学习诊断法帮助我们了解哪些算法是有效的。
上述方法称为 机器学习诊断法 。诊断法的意思是,这是一种测试法,你通过执行这种测试,能够深入了解某种算法到底是否有用。这通常能够告诉你,改进一种算法可以达到的效果,什么样的尝试才是有意义的。
1 评估假设
评估假设函数,以此为基础讨论如何避免过拟合和欠拟合问题。
当我们确定学习算法的参数的时候,我们考虑的是选择参量来使训练误差最小化,有人
认为得到一个非常小的训练误差一定是一件好事,但我们已经知道,仅仅是因为这个假设具
有很小的训练误差,并不能说明它就一定是一个好的假设函数。而且我们也学习了过拟合假
设函数的例子,所以这推广到新的训练集上是不适用的。
那么,你该如何判断一个假设函数是过拟合的呢?对于这个简单的例子,我们可以对
假设函数ℎ(????)进行画图,然后观察图形趋势,但对于特征变量不止一个的这种一般情况,还
有像有很多特征变量的问题,想要通过画出假设函数来进行观察,就会变得很难甚至是不可
能实现。
因此,我们需要另一种方法来评估我们的假设函数过拟合检验。
为了检验算法是否过拟合,我们将数据分成训练集和测试集,通常用 70%的数据作为
训练集,用剩下 30%的数据作为测试集。很重要的一点是训练集和测试集均要含有各种类型
的数据,通常我们要对数据进行“洗牌”,然后再分成训练集和测试集。
2 模型选择和交叉验证
4 诊断偏差和方差
当你运行一个学习算法时,如果这个算法的表现不理想,那么多半是出现两种情况:要么是偏差比较大,要么是方差比较大。换句话说,出现的情况要么是欠拟合,要么是过拟合问题。那么这两种情况,哪个和偏差有关,哪个和方差有关,或者是不是和两个都有关?
能弄清楚怎样评价一个学习算法,能够判断一个算法是偏差还是方差有问题,因为这个问题对于弄清如何改进学习算法的效果非常重要,高偏差和高方差的问题基本上来说是欠拟合和过拟合的问
题。
对于训练集,当 ???? 较小时,模型拟合程度更低,误差较大;随着 ???? 的增长,拟合程度提高,误差减小。
对于交叉验证集,当 ???? 较小时,模型拟合程度低,误差较大;但是随着 ???? 的增长,误差呈现先减小后增大的趋势,转折点是我们的模型开始过拟合训练数据集的时候。
如果我们的交叉验证集误差较大,我们如何判断是方差还是偏差呢?根据上面的图表,我们知道:
4 正则化和偏/方差
选择????的方法为:
1.使用训练集训练出 12 个不同程度正则化的模型
2.用 12 个模型分别对交叉验证集计算的出交叉验证误差
3.选择得出交叉验证误差最小的模型
4.运用步骤 3 中选出模型对测试集计算得出推广误差,我们也可以同时将训练集和交叉验证集模型的代价函数误差与 λ 的值绘制在一张图表上:
5 学习曲线
使用学习曲线来判断某一个学习算法是否处于偏差、方差问题。学习曲线是学习算法的一个很好的合理检验(sanity check)。学习曲线是将训练集误差和交叉验证集误差作为训练集实例数量(????)的函数绘制的图表。
即,如果我们有 100 行数据,我们从 1 行数据开始,逐渐学习更多行的数据。思想是:当训练较少行数据的时候,训练的模型将能够非常完美地适应较少的训练数据,但是训练出来的模型却不能很好地适应交叉验证集数据或测试集数据。
也就是说在高偏差/欠拟合的情况下,增加数据到训练集不一定能有帮助。
6 小结
本节我们可以得到这样的结论:
使用较小的神经网络,类似于参数较少的情况,容易导致高偏差和欠拟合,但计算代价较小使用较大的神经网络,类似于参数较多的情况,容易导致高方差和过拟合,虽然计算代价比较大,但是可以通过正则化手段来调整而更加适应数据。
通常选择较大的神经网络并采用正则化处理会比采用较小的神经网络效果要好。
对于神经网络中的隐藏层的层数的选择,通常从一层开始逐渐增加层数,为了更好地作选择,可以把数据分为训练集、交叉验证集和测试集,针对不同隐藏层层数的神经网络训练神经网络, 然后选择交叉验证集代价最小的神经网络。