机器学习第三周(三)--正则化

过拟合与欠拟合

机器学习第三周(三)--正则化

第一幅图片能看到模型能大致拟合数据,但效果不是很好;第二幅相比效果就好很多;第三幅图片也能很好的拟合当前数据,但是预测数据效果不行。我们将第一幅图片中的现象称为“欠拟合”( underfitting)也叫“高偏差”(high bias),第三幅中的现象称作“过拟合”(overfitting)也叫“高方差”(high variance)。图片2中的模型是我们最好的结果。比较一下欠拟合和过拟合。

欠拟合 过拟合
特征太少,导致模型太简单不能很好拟合数据 特征太多,模型太过复杂,能很好拟合当前数据但预测数据效果差
解决办法增加特征,使模型变得复杂 减少特征数量,或者正则化

欠拟合和过拟合现象在线性回归和逻辑回归中都可能出现,下面给出俩中解决过拟合现象的具体方法
机器学习第三周(三)--正则化
其中使用正则化主要分为减小θ 的大小和挑选更有用的特征。


正则化

机器学习第三周(三)--正则化
左边的模型是我们想要的结果,为了改善右边的过拟合现象,对θ3 θ4 项做平方处理,这时θ3 θ4 近似0,这就能极大减小原假设函数中后俩项的影响,模型也就等同左边模型。
按照这种思想,我们得到损失函数一般式:
机器学习第三周(三)--正则化
λ 称正则参数(regularization parameter),注意λ 如果取得过大,那么θ 项接近于0,这样假设函数模型就会过于简单,又会陷入到欠拟合中

机器学习第三周(三)--正则化


Regularized linear regression

给出梯度下降式:
机器学习第三周(三)--正则化
注意:θ0 拿出来不参与正则化。j>1项进一步化简有
机器学习第三周(三)--正则化
注意机器学习第三周(三)--正则化一般要小于1


Normal Equation

常规方程是直接求θ 的,这里也给出直接求θ 的等式,
机器学习第三周(三)--正则化
注意:如果m 小于n(样本少于特征),则X的转置与X乘积可能是不可逆的,但加上正则项后为可逆。


Regularized logistic regression

同线性回归类似,加入正则化参数,结果如下
机器学习第三周(三)--正则化
同样给出梯度下降式
机器学习第三周(三)--正则化

注意:当引入正则化后,梯度求解要分别分theta=0和theta(j>=1)俩种情况,所以不管线性回归或逻辑回归或常规方程求解梯度下降时都要分theta=0和theta>=1俩种情况