机器学习面试常考知识之偏差和方差
定义:
偏差:描述的是预测值的期望和真实值的偏离关系,偏差越大,越偏离真实值。(boosting减少偏差)
方差:描述的是预测值的离散程度(波动程度),方差越大,数据的分布越分散,波动越明显。(bagging降低方差)从数学角度看,可以理解为每个预测值与预测均值差的平方和的再求平均数。
这是一张常见的靶心图。可以想象红色靶心表示为实际值,蓝色点集为预测值。在模型不断地训练迭代过程中,我们能碰到四种情况:
低偏差,低方差:这是训练的理想模型,此时蓝色点集基本落在靶心范围内,且数据离散程度小,基本在靶心范围内;
低偏差,高方差:这是深度学习面临的最大问题,过拟合了。也就是模型太贴合训练数据了,导致其泛化(或通用)能力差,若遇到测试集,则准确度下降的厉害;
高偏差,低方差:这往往是训练的初始阶段;
高偏差,高方差:这是训练最糟糕的情况,准确度差,数据的离散程度也差。