机器学习实战（三）-模型评估（误差、偏差、方差）

一、概念

1、方差：是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性。描述数据离散程度，数据波动性，会影响模型的预测结果。

示例：每个班成绩数据方差不一样，即每个班数据与均值间的差异大小，是都在平均值范围，还是极端高和极端低。

2、偏差：预测值和真实值之间的差距，针对样本数据。偏差越大，越偏离真实数据集。用来衡量测定结果的精密度高低。

示例：用每个人不同次语文考试成绩的平均值来合真实值的差别。

四张图：

解释：

左上：低偏差，低方差。预测准确到高，模型很稳定，数据集中。（理想模型）

右上：低偏差，高方差。预测结果较准确，模型不稳定，数据波动影响预测结果，数据分散。

左下：高偏差，低方差。预测结果不准确，模型稳定，数据集中。

右下：高方差，高偏差。预测结果不准确，模型不稳定，数据分散

3、噪声：任何学习算法在泛化能力的下界，和预测结果不一致的数据点，但与最终结果不一致，无法通过模型降低。

示例：KNN中，k选取10，8个为A类，2个为B类，这2个为噪声点

4、误差：误差反映的是模型整体精准度

方差 + 偏差 + 噪声

5、协方差：衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。

1、误差、方差、偏差、噪声

误差：整个模型的准确度，以真实值为标准。

方差：模型间差异，随着数据量增加，模型是否稳定。

偏差：预测值和数据之间差异，以多次测量结果的平均值为标准。描述训练数据和模型的匹配度。

噪声：预测结果间差异，算法可以接受的不确定数据的范围比例或程度。

2、方差、偏差与过拟合、欠拟合关系

欠拟合：模型在训练和预测时表现都不好的情况

过拟合：训练数据模型预测精确（含噪声）,但测试数据不精确

图：

图1：偏差最大，方差最小

图4：偏差最小，方差最大

3、与模型复杂度关系

越复杂的模型，偏差越小，方差越大，会出现过拟合

参数少简单模型，会得到低方差，高偏差，会出现欠拟合

1、是否所有算法都可以用方差、偏差来评估？

2、以下算法是不是不存在过拟合和欠拟和，因为没有相应模型？

如：KNN、决策树、贝叶斯、聚类、关联分析