林轩田机器学习基石Lecture 12: Nonlinear Transformation

@Lecture 12: Nonlinear Transformation本章主要讲如何通过特征变换,将线性模型推广到非线性

Quadratic Hypotheses

首先,从二次假设开始:假设数据不是线性可分的,但是可以通过一个二次曲线将其分开,如下图所示,样本数据的分界线是一个圆形曲线
林轩田机器学习基石Lecture 12: Nonlinear Transformation
分界线函数:林轩田机器学习基石Lecture 12: Nonlinear Transformation
如果令z=x的平方,也就是把数据样本从x空间转换到z空间,发现z可以线性可分
林轩田机器学习基石Lecture 12: Nonlinear Transformation

Nonlinear Transform

归纳上节的过程,可以将z推广到任意的特征变换
林轩田机器学习基石Lecture 12: Nonlinear Transformation
也就是所非线性可分的数据可以先做特征变换,变成线性可分

Price of Nonlinear Transform

特征变换不是没有代价的
一是需要计算代价和存储代价,而且特征变换复杂的话(变换到多维空间),这个代价会很大,难以计算和存储
林轩田机器学习基石Lecture 12: Nonlinear Transformation

模型复杂度的代价:
模型参数的变多、dvc也会变大
林轩田机器学习基石Lecture 12: Nonlinear Transformation特征变换复杂也可能会带来模型的过拟合
而且在定义特征变换函数时不能偷看数据(人为的去发现数据的规律,看出来圆圈可分),这一部分其实是human learning model的复杂度。
需要考虑:经过特征变换到高维空间以后,样本的数量是否还能支撑计算,按照N=10d的原则

Structured Hypothesis Sets

特征变换的结构可以推出特征变换的H set也会有相互包含的结构
林轩田机器学习基石Lecture 12: Nonlinear Transformation
由此我们可以推出
林轩田机器学习基石Lecture 12: Nonlinear Transformation
也就是说模型过于复杂会虽然Ein很小,但导致Eout变大,最终模型的效果并不好
所以说在选择模型时,应该先去尝试简单的模型,Ein不好的话再去慢慢的增加dvc
林轩田机器学习基石Lecture 12: Nonlinear Transformation