李宏毅机器学习笔记(3): error
Error
1 初步分析
不同的model会产生不同的error,很多时候,更复杂的model会产生更复杂的error。error来源:变量与偏差。
通过训练数据,我们可以拟合模型得到估计值,但是估计值不等于实际值,两者之差即为误差,误差可能来源于偏差或者变量。
图 1-1 样本均值
样本均值:可以利用平均值估计,但是平均值很难等于实际估测值。
图1-2 无偏估计方差
而对方差也可以进行描述出样本的偏差的情况,方差越大,样本越分散。
图 1-3 有偏估计方差
图1-4 偏差与变量对误差影响
误差来源于两个地方,如图4,bias会导致实际估计值会离精确值偏离,variance会导致估计值较为分散。
2 varience
图2-1 不同模型对实际情况的影响
如图5 使用不同模型经过多次分析,发现,使用较为简单的模型,在实际情况下有较小的变量上的误差,收到来varience上的误差影响较小。而模型越复杂,受到来自varience上的误差影响较大。
3 bias
图3-1 bias对模型影响
较大bias在实际中,使用较为简单的模型,会导致偏差误差较大,即实际情况下据目标中心偏差较大。而复杂的模型,bias误差较小,据实际目标中心偏差较小。
4 欠拟合与过拟合
图4-1 过拟合与欠拟合
根据图4-1我们可知,当出现模型过于简单时,容易出现bias误差较大,而varience误差较小,我们称为欠拟合。而模型较为复杂,bias小,varience大,我们称此为过拟合。
如果,你的模型不能拟合较多的样本点,无法较好的适应模型,会发生欠拟合。而当你的模型几乎全部的包含了样本点,但是产生了拟合中的巨大的错误,很可能是过拟合。
对于欠拟合,你可以重新设计你的模型:
- 在输入中,增加新的因素
- 选择更为复杂的模型
对于varience大:
- 正则化:使曲线平滑
图4-2 正则化使曲线更平滑
5 模型选择
选取平衡两者的模型。
实际情况下,可能有你的模型在测试集上误差不大,但实际情况下误差稍大。
图5-1通常建模型
通常,我们在模型设计时,会将训练数据分成两组,一组训练集,一组验证集(validation set),训练之后可以进行验证评估,我们称为交叉验证。。交叉验证, 重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。
图5-2 交叉验证