深入理解偏差和方差

1. 偏差和方差

       了解导致偏差(bias)和方差(Variance)的不同误差源有助于我们改进数据的拟合过程,从而产生更准确的模型。我们以三种方式定义偏差和方差:概念、图形和数学。

1.1 概念

      由偏差引起的误差:由偏差引起的误差被视为模型的期望或者平均预测与正确值之间的差异。当然,我们只有一个模型,之所以说期望或者平均预测值是可以假设多次重复整个模型的构建过程。偏差衡量的是模型预测值和正确值之间的距离。

       由方差引起的误差:由方差引起的误差被视为给定数据点的模型预测的可变性。再次假设可以多次重复整个模型的构建过程,方差是给定点的预测在模型的不同实现之间的变化。

1.2 图形

       我们可以使用靶心图来创建偏差和方差的图形可视化,想象一下,目标的中心是一个完美预测值的模型,随着远离靶心,我们的模型预测变得越来越糟糕。我们可以重复整个模型的构建过程,以便在目标上获得许多单独的命中。考虑到我们收集的训练数据的可变性,每次命中代表我们个体实现。有时我们能够获得较好的训练数据分布,所以预测的很好,很接近靶心;而有时我们的训练数据充满了异常值和非标准值,导致预测较差;这些不同实现导致目标上的命中分散。

       我们可以绘制四种不同的情况,代表高、低偏差和方差的组合。

深入理解偏差和方差

 

1.3 数学定义

       假设输入变量为X,输出变量为Y,则深入理解偏差和方差 , 深入理解偏差和方差是由于噪声等引起的、不可避免的随机误差。误差深入理解偏差和方差通常服从均值为0的分布。深入理解偏差和方差 是我们根据训练数据集构建的模型。在这种情况下,x点的均方误差为:

深入理解偏差和方差

证明:https://blog.****.net/allenalex/article/details/79982644

参考网址:http://scott.fortmann-roe.com/docs/BiasVariance.html

2. 概率论中的均值和方差的定义及相关性质

2.1 均值的定义和性质

深入理解偏差和方差

  2.2 方差的定义和性质

深入理解偏差和方差