一文读懂误差的偏差方差
目录
偏差和方差的直观理解:
偏差:描述的是预测值的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。
方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。
详解:蓝色点相当于真实数据,红圈相当于预测期望
左上图:低偏差低方差,所有数据的聚拢在一起,极限思想,偏差为0,方差为0。
右上图:低偏差高方差,数据分散于预测期望附近,在期望上下浮动,整体的偏差就抵消到0了,数据太波动,方差极大。
左下图:高偏差低方差,真实数据距离预测期望都挺远的,偏差极大,但是真实数据本身浮动不大,方差为0。
右下图:高偏差高方差,真实数据距离预测期望都挺远的,浮动极大,偏差和方差都很大。
误差分解:
误差=偏差的平方+方差+随机误差
按行说明:
1)误差就是预测和真实的偏差,以L2损失为例的话
已知:观测值y和数据的规律f(x)之间的关系:
一般认为随机误差服从均值为0的正态分布,记作 (随机误差:随机误差是数据本身的噪音带来的,不同精度的设备等得到的数据随机误差不同)
所以将上式带入可得,随机误差和预测之间相互独立,可以转化。
2)令,继续转化
3)二次多项式分解(a+b)^2 = a^2+b^2+2ab,由于此时y和均为常数,可以提到前面
4)第三项红色部分利用期望的性质可得
5)4中红色部分等于0,是由于2中式子推导而得。
偏差和方差的平衡
模型的复杂度和误差之间的关系图:
红-偏差,绿-方差,黑-误差,误差=偏差的平方+方差
图解:
1)模型越复杂,偏差越低,方差越高
2)模型越简单,偏差越高,方差越低
3)对于误差来说,黑色线是红色线的平方与绿色线之和,说明误差是随着模型越复杂,先减小后增大,我们期待的最优秀的点就在黑色线的低值点处。
4)针对1、2的结论提出以下问题
为什么模型越复杂,方差越高呢?
例:,用线性模型和15阶多项式拟合:
左图训练集,右图验证集,橙色是线性模型,绿色是多项式模型
图解:
1)训练集上,线性模型的误差要明显高于多项式模型,线性模型在训练集上欠拟合,偏差高于多项式模型的偏差。
2)校验集上,线性模型的误差小于多项式模型的误差。
3)线性模型在训练集和验证集上的误差相对接近,泛化能力更好。而多项式模型在两个数据集上的误差差距很大。多项式模型在训练集上过拟合,方差高于线性模型的方差。
通过外在表现判断模型欠拟合还是过拟合
训练误差随着模型复杂度增加一直减小。 校验误差随着模型复杂度的变化先减小(欠拟合程度减轻);
当模型复杂度超过一定值后,校验误差随模型复杂度增加而增大,此时模型进入过拟合状态。