课时三:久拟合与过拟合的概念
一 概念引入
特征数据的选择对于学习算法的训练结果有着非常重要的意义,使用不同的特征数据或会运算出完全不同的模型;
- 以课时二的训练为例,当我们只考虑房间大小,得到简单的线性回归
这类情况简单适配样本数据,未考虑完善影响因素,可理解为欠拟合
- 当我们考虑大小二次方,或能得到一个更贴近实际图的二次回归线
这类情况结果或更贴近实际走势图
- 当我们考虑多次方数据去适配样本数据,或能得到一个经过所有测试点的曲线图
这类情况过度匹配当前样本数据,可理解为过拟合
二 定义
参数学习算法:有固定参数数目用于数据拟合的算法
非参数学习算法:算法训练所需要的东西会随着训练样本数量增长(参数数量会随着训练样本数m线性增长)
局部加权回归:(一种特定非参数学习算法)计算合适的,使得
最小
其中,,当|
|
; 当|xi-x|
- 可以得出,预测值周围的样本数据点对最后的模型产生更多的影响;
- 该算法使得无需过多考虑特征选择带给模型的影响,但并不能完全避免过拟合和欠拟合的问题;
- 每次预测都需要做一次新的拟合,所以对于大数据量训练集合不是非常友好;
三 最小二乘目标选取的概率证明
四 分类算法
输出变量为有限个离散变量的预测问题;输出空间非度量空间,定性评判错误与否,而回归问题输出空间为度量空间,可通过结果度量误差;
对于这类情景,线性回归显然通常不会是一个好的方法;
五 感知器算法