5201week1(Model selection+basic concept)
5201week1(Model selection+basic concept)
首先是本节课的三个目标
P1:machine learning process
P1-1 process学习input与output的关系,有两个作用:明白input对output的影响(inference)+根据input作出prediciton
P1-2 some importance concept这里涉及到training set 与 test set,generalizaiton说的就是这个model的实用性
监督学习与非监督学习的区别在于target variables 是否given
回归是连续真值,分类的有限离散值
P2:Machine learning
P2-1: Challenge数据集是有限而且dirty的
P2-2 两种模型(参数型,非参数型)
P2-3如何挑选合适的参数
思路:尽可能地降低实验值与真实值的差距—使用误差方程
P2-4模型指数–决定模型的复杂性,越高越复杂
这个指数涉及到两个概念:under-fitting 与 over-fitting
P2-5挑选合适的指数W
结合上述两个概念,我们使用E(rms)挑选合适的指数M(那就是计算它的实用性 generalisation performance)
E(w*)是误差方程如上图所示,在0-3这一段,我们尽可能的调节参数,使得Training与Test的误差都同步变小,当Traning变小而Test变大,那就是over-fitting
P2-6使用延误方程(penalty term)解决over-fitting
如上文所说,当model变得over-fitting的时候,其实是因为它的参数太敏感(sensitive)(数值太大),为了降低参数的值,我们使用penalty term,里面的penalty是所有参数的平方和再乘一个regularization系数
这个regularization 参数越大,证明模型越简单(under-fitting),越小,证明越复杂(over-fitting)
P3 两种方法去训练模型
P3-1 K-Fold cross validation
P3-2 leave one out cross validation
课堂总结: