《机器学习实战》和Udacity的ML学习笔记之线性回归
《机器学习实战》和 UdacityML学习笔记
1.回归模型的选择
在线性回归中,可以通过改变特征的数量测试模型的拟合程度。
如图所示,当特征值k等于3的时候,相对更好地拟合了原数据,但又不糊像当K=8时那样夸张。(过度拟合)。其实在绘制误差和特征数量图的时候也可以发现,特征数量从3到8,误差机会没变,就时说引入的额外的特征根本没又起作用。所以可以得出结论,在训练过程中特征数量为3的情况为最优。
最后通过交叉验证误差对比图,发现误差特征数量图的结论也适用到实际测试当中。即特征数量为3的时候,模型的拟合情况最好,无论是在训练集还时在测试集当中。
2. 回归中的交叉验证
交叉验证:主要用于建模应用中,例如PCR 、PLS 回归建模中。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。一句话概括就是,从样本中取小一部分做测试集。
常见的交叉验证方法:
- Hold-Out:即一分为二,一半测试,一半训练
- K-fold (记为K-CV):即分成k份,将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集。
- Leave-One-Out:即每个样本单独作为验证集,其余的N-1个样本作为训练集
更多详细参考:交叉验证(CrossValidation)方法思想简介
3.线性回归中的输入
除了连续型的标量以外,向量也可以作为回归模型的输入,这是向量的方向会又某种意义。例如颜色的RGB值,某些值越大,某种程度就会加深,如灰度值之类的。
4.线性回归相关资料
1.Uacity英文资料Linear Regression
5.此处未涉及的问题(建模、应用等)
1.线性回归及梯度下降
2.Stanford机器学习笔记-1.线性回归
3.有监督学习之–回归(其它类型的回归)
4.[ML]机器学习(machine learning)的入门之旅 – 从kaggle谈到线性回归(解题应用)
5.线性回归(Linear regression)及其相关问题(有具体模型建立)