机器学习之偏差方差
一.偏差和方差
1.偏差和方差分别是用于衡量一个模型泛化误差的两方面:
模型偏差:模型预测的期望值和真实值之间的差。
模型方差:模型预测的期望值和预测值之间的差的平方
2.监督学习,模型泛化误差可以分为偏差/方差/噪声的和
所以偏差表示的是模型的拟合能力。方差描述的是模型内部的稳定性。
1.导致偏差和方差的原因
偏差描述的是模型对于真实函数的拟合能力,出现偏差较大的原因,简单说就是没有拟合好。可能真实的函数是二次的,而预测的模型是一次的,所以这个就是欠拟合。所以偏差引起的误差通常是在训练的时候体现,所以训练的误差主要是有偏差引起的。
方差描述的是模型在测试集上泛化的能力问题。当模型的复杂度过高。真是模型是一个二次的,结构模型是高次的。就会导致方差的增大。也就是过拟合。方差引起的误差主要体现在测试误差对训练误差的增量上。
2.深度学习中偏差和方差
深度学习的模型拟合能力都很强,所以训练误差相对较低,所以偏差就较低。但是过强的拟合会出现较大的方差,模型的测试误差(泛化误差)增大。所以深度学习中核心的一项工作就是降低模型的泛化误差,这类方法称为正则化方法。
3.计算公式
1)在训练集D上的模型函数:
2)模型的预测的期望值:
3)偏差:
偏差所度量的是学习算法的期望预测和真实结果偏离程度,刻画的是学习算法自身拟合的能力。
4)方差:
方差度量的是训练集的数据变动所带来的影响,刻画的是数据扰动造成的影响(模型的稳定性)
5)噪音:表示的是抛开数据影响和算法影响,所能达到期望泛化误差的下界,刻画的是问题本身自带的难度。
6)偏差和方差表明的就是模型泛化能力是由算法能力,数据效果和任务自身难度共同决定的。
4.模型中偏差和方差权衡
模型训练从开始到结束,当训练开始时,模型还不能很好的拟合真实的函数,这个过程就是欠拟合,误差主要有训练误差为主,也就是偏差为主。当模型不断的训练,拟合的效果增加,训练误差减小,方差将逐步成为误差的主要,在这个过程中会产生最优的模型参数可以使得误差局部最小。当训练充分后,模型的拟合能力过强,就会产生过拟合的现象,这个时候训练数据的扰动都会很大程度的影响模型,偏差很低但是方差不断增加,误差也逐渐增加。