台大-林轩田老师-机器学习基石学习笔记9

引言

故事回到之前我们第一讲当中的发信用卡的问题,如果不是发和不发的决策如果是,发多少的决策的时候,这个时候就不是二分类问题了。
这是——线性回归问题
还记得我们的第二讲的时候输出空间是实数的是线性回归问题的吧~
regression的输出空间是实数空间
算分数就是一个实数,不用bound来判断,其余一样的操作。
因此有个定义:

线性回归:找一个有着很小余数residual的直线或者hyperplane

线性回归问题

线性回归用到的错误衡量是
台大-林轩田老师-机器学习基石学习笔记9
而我们希望看到的在样本内外的表现是怎么衡量的呢?
这边引入数学公示:
台大-林轩田老师-机器学习基石学习笔记9
那么下面的问题就成了如何减少Ein了,老师在视频中进行了一番骚操作

线性回归算法

表示成矩阵运算希望消除连加号
台大-林轩田老师-机器学习基石学习笔记9
这个最后的式子不是我们高中学的吗!
对的没错接下来要讨论这个极值点。
不过这边更合适的称呼应该是梯度为0的点,因为纬度不再是二维空间。
台大-林轩田老师-机器学习基石学习笔记9
台大-林轩田老师-机器学习基石学习笔记9
让梯度为0,则很容易得到:
台大-林轩田老师-机器学习基石学习笔记9
上面分两种情况来求解w。当

(X^T)*X(X的转置乘以X)

  • 可逆时,可以通过矩阵运算直接求得w;
  • 不可逆时,直观来看情况就没这么简单。

实际上,无论哪种情况,我们都可以很容易在一些编程平台,直接调用相应的函数或包即可。有些库中把这种广义求逆矩阵运算成为
pseudo-inverse。(假的inverse)

那么这个算法步骤就很清楚啦:
台大-林轩田老师-机器学习基石学习笔记9

线性回归是机器学习吗

这里又是老师的一波骚操作:
台大-林轩田老师-机器学习基石学习笔记9
只有好的Ein才能确定Eout是怎么样的
I这里是单位矩阵
之后我们来看一下HAT Matrix是什么:
台大-林轩田老师-机器学习基石学习笔记9
我们发现其实就是投影和原向量之间的差就是Y与Y^的差。
最后我们的数学推导(老师应该也省略了)指向一个结论:
台大-林轩田老师-机器学习基石学习笔记9
得出的结论是:
台大-林轩田老师-机器学习基石学习笔记9
这里要理解其中的哲学愿意,这个算法希望让你在你的数据中看到的Ein比总的E要小,因为都让给Eout承担了。
所以是我们要的结论——就是机器学习!

线性回归与线性分类器

这一部分结合本文开篇说的类似,只是一个的输出是实数集一个是O或X之外又有什么异同呢?
台大-林轩田老师-机器学习基石学习笔记9
这些似乎在传达一个信号——线程回归的方法来进行二值分类!
原来:
台大-林轩田老师-机器学习基石学习笔记9
是由于回归的squared error 是分类的0/1 error 的上界,我们通过优化squared error,一定程度上也能得到不错的分类结果。如果一定要有区分的话,可以将回归方法得到的w作为二值分类模型的初始w0值。
台大-林轩田老师-机器学习基石学习笔记9
我们以后求解线性n元分类时,可以先求线性n元回归,作为分类的基础参数的参考!

结论

台大-林轩田老师-机器学习基石学习笔记9