课时三:久拟合与过拟合的概念

一 概念引入

特征数据的选择对于学习算法的训练结果有着非常重要的意义,使用不同的特征数据或会运算出完全不同的模型;

  1. 以课时二的训练为例,当我们只考虑房间大小,得到简单的线性回归课时三:久拟合与过拟合的概念

课时三:久拟合与过拟合的概念

这类情况简单适配样本数据,未考虑完善影响因素,可理解为欠拟合

  1. 当我们考虑大小二次方,或能得到一个更贴近实际图的二次回归线课时三:久拟合与过拟合的概念

课时三:久拟合与过拟合的概念

这类情况结果或更贴近实际走势图

  1. 当我们考虑多次方数据去适配样本数据,或能得到一个经过所有测试点的曲线图课时三:久拟合与过拟合的概念

课时三:久拟合与过拟合的概念

这类情况过度匹配当前样本数据,可理解为过拟合

 

 

二 定义

参数学习算法:有固定参数数目用于数据拟合的算法

非参数学习算法:算法训练所需要的东西会随着训练样本数量增长(参数数量会随着训练样本数m线性增长)

局部加权回归:(一种特定非参数学习算法)计算合适的课时三:久拟合与过拟合的概念,使得课时三:久拟合与过拟合的概念最小

其中,课时三:久拟合与过拟合的概念,当|课时三:久拟合与过拟合的概念|课时三:久拟合与过拟合的概念; 当|xi-x|课时三:久拟合与过拟合的概念

  • 可以得出,预测值周围的样本数据点对最后的模型产生更多的影响;
  • 该算法使得无需过多考虑特征选择带给模型的影响,但并不能完全避免过拟合和欠拟合的问题;
  • 每次预测都需要做一次新的拟合,所以对于大数据量训练集合不是非常友好;

课时三:久拟合与过拟合的概念

 

 

三 最小二乘目标选取的概率证明

课时三:久拟合与过拟合的概念

 

 

四 分类算法

输出变量为有限个离散变量的预测问题;输出空间非度量空间,定性评判错误与否,而回归问题输出空间为度量空间,可通过结果度量误差;

课时三:久拟合与过拟合的概念

 

对于这类情景,线性回归显然通常不会是一个好的方法;

课时三:久拟合与过拟合的概念

 

五 感知器算法

课时三:久拟合与过拟合的概念