机器学习实战(三)-模型评估(误差、偏差、方差)

一、概念

1、方差:是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。描述数据离散程度,数据波动性,会影响模型的预测结果。
示例:每个班成绩数据方差不一样,即每个班数据与均值间的差异大小,是都在平均值范围,还是极端高和极端低。
机器学习实战(三)-模型评估(误差、偏差、方差)
2、偏差:预测值和真实值之间的差距,针对样本数据。偏差越大,越偏离真实数据集。用来衡量测定结果的精密度高低。
    示例:用每个人不同次语文考试成绩的平均值来合真实值的差别。
机器学习实战(三)-模型评估(误差、偏差、方差)
四张图:
机器学习实战(三)-模型评估(误差、偏差、方差)
解释:
左上:低偏差,低方差。预测准确到高,模型很稳定,数据集中。(理想模型)
右上:低偏差,高方差。预测结果较准确,模型不稳定,数据波动影响预测结果,数据分散。
左下:高偏差,低方差。预测结果不准确,模型稳定,数据集中。
右下:高方差,高偏差。预测结果不准确,模型不稳定,数据分散
3、噪声:任何学习算法在泛化能力的下界,和预测结果不一致的数据点,但与最终结果不一致,无法通过模型降低。
示例:KNN中,k选取10,8个为A类,2个为B类,这2个为噪声点
4、误差:误差反映的是模型整体精准度
      方差 + 偏差 + 噪声
5、协方差:衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

二、区别

1、误差、方差、偏差、噪声
误差:整个模型的准确度,以真实值为标准。
方差:模型间差异,随着数据量增加,模型是否稳定。
偏差:预测值和数据之间差异,以多次测量结果的平均值为标准。描述训练数据和模型的匹配度。
噪声:预测结果间差异,算法可以接受的不确定数据的范围比例或程度。
2、方差、偏差与过拟合、欠拟合关系
欠拟合: 模型在训练和预测时表现都不好的情况
过拟合: 训练数据模型预测精确(含噪声),但测试数据不精确
名称 欠拟合 过拟合
方差( 训练数据)
偏差(训练数据)
方差(测试数据)
偏差(测试数据)
图:
机器学习实战(三)-模型评估(误差、偏差、方差)
图1:偏差最大 ,方差最小
图4:偏差最小 ,方差最大
3、与模型复杂度关系
越复杂的模型,偏差越小,方差越大,会出现过拟合
参数少简单模型,会得到低方差,高偏差,会出现欠拟合

三、遗留问题

  1、是否所有算法都可以用方差、偏差来评估?
2、以下算法是不是不存在过拟合和欠拟和,因为没有相应模型?
如:KNN、决策树、贝叶斯、聚类、关联分析