1.7方差与偏差

偏差(Bias):描述的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距,即在样本上拟合的好不好。
方差(Variance):模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。
噪声(Noise):为真实标记与数据集中的实际标记间的偏差。通常由多种因素综合影响造成,不可去除。
偏差度量了学习算法的期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力。
方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。
噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。

泛化误差组成推导:
1.7方差与偏差
偏差与方差
1.7方差与偏差
偏差:体现的是最终结果和实际结果的差异,偏差越小,和真实结果越接近
方差:体现的是整体水平波动,方差越小,结果稳定
我么期望模型结果为低偏差,低方差的模型

偏差体现的是拟合程度优劣,通常模型越复杂,偏差越小。当偏差较大时,即预期输出和实际结果偏离较大,称之为欠拟合。
方差体现的是模型的稳定程度,通常模型越简单,方差越小。当方差较大时,模型不稳定,即对一些新数据的预测不稳定。偏差小,方差大的情况即为过拟合

1.7方差与偏差
模拟一次计算过程:
假设有一个数据总体,其真实模型为一个一元二次的方程:y=x²,这些都是未知的。已知一个数据集,计算偏差和误差。
基本步骤:

  • 准备一个测试集(其值为真实值),选中其中一个样本计算偏差和误差
  • 从已知数据集中抽样得到样本D
    • 使用该样本进行复杂度不同的模型的训练,此处诜择了从0次到3次四种模型进行训练
    • 每一个模型都作用于测试集中的指定样本,得到预测值
  • 是否达到预先设置的循环次数
  • 对指定样本计算Bias、Variance
  • 绘图

1.7方差与偏差