机器学习中偏差(bias),方差(variance)与噪音(noise)的关系
先定义一些变量和方式
Samples | <X,y> |
真实函数 (True Function) | y= f(X) +ϵ |
ϵ | 均值为0,标准方差为的高斯分布 |
h(X) | 拟合函数(以多项式为例) |
所以我们往往通过最小化平方差和来求解拟合函数中的未知参数(如多项式中的w)。多次训练的结果存在细微的差别,如下图中所示:
定义h(X)的期望E[h(X)]为 h ̅(X),并且根据期望和方差之间的关系式
所以Eq.1 中E[〖h(X)〗^2 ]=E[(〖h(X)-h ̅(X))〗^2 ]+〖h ̅(X)〗^2 Eq.2
又因为E[y]=E[f(X) +ϵ]=f(X)
所以Eq.1 中E[y^2 ]= E[(〖y-f(X))〗^2 ]+〖f(X)〗^2 Eq.3
所以将Eq.2和Eq.3代入Eq.1得:
E[(y-h(X))^2 ]=E[(〖h(X)-h ̅(X))〗^2 ] (方差variance)
+(h ̅(X)-f(X))^2 (偏差bias)
+ E[(〖y-f(X))〗^2 ] (噪音noise)
预测误差 = 方差 + 偏差^2 +噪音^2
方差E[(〖h(X)-h ̅(X))〗^2 ]描述了假设的拟合函数的变化程度,因为噪音的存在使得训练集存在细微差异,刻画了数据变动(扰动)所带来的影响,鲁棒性;
偏差(h ̅(X)-f(X))^2描述了在假设的可能的拟合函数集的平均误差,刻画了算法本身的拟合能力,准确性;
噪音E[(〖y-f(X))〗^2 ]描述了不可避免的随机误差,表达了学习问题本身的难度。
另外偏差和方差之间存在着矛盾我们叫做(bias-variance dilemma)
这部分内容可以参考https://www.zhihu.com/question/27068705 或是西瓜书的2.5章。
核心的意思是,在模型学习程度较低时,由于训练不足,训练的偏差(bias)较大,而训练数据的干扰带来的误差(variance)很小,这种阶段就是机器学习中的欠拟合(unfitting);当训练程度加深,偏差变小,但是由于对于当前数据集学习程度加深,如果当前数据集自身的非全局性的特性被学习到,那么会带来过拟合(overfitting)的结果。
所以对于确定型系统(deterministic system)来说(noise-free),系统的目标往往是预测偏差最小;
对于含有噪音的系统(experiment system)来说,系统的目标通常为最小化预测方差(Variance)。
参考材料
http://www-scf.usc.edu/~csci567/17-18-bias-variance.pdf
https://www.zhihu.com/question/27068705