机器学习笔记--过度拟合与正则化
注:本文为学习笔记,描述与截图多来自课件和百科,学习网站为:https://www.coursera.org/learn/machine-learning/supplement/fDCQp/classification
1.过度拟合
我们的预测模型可能会出现如下三种情况:
第一种情况:如第一个图形所示,预测模型为直线,即,但该直线并没有很好的覆盖数据
第二种情况:如第二个图形所示,添加了一个特征变量x2,这时 , 可以看到这时数据有了较好的拟合度。
第三种情况:如第三个图形所示,添加了多个特征变量,一共有5阶多项式, 我们看到,即使拟合曲线完美地通过了数据,但我们也不能期望这可以很好地预测我们待测数据。
左边的图显示了一个拟合不足的实例(其中数据清楚地显示了模型未捕获的结构),而右边的图则是过度拟合的示例。
拟合不足或高偏差是指假设函数h的形式无法很好地映射到数据趋势的情况。 这通常是由于特征变量太简单或使用的特征变量太少所致。 在另一个极端,过度拟合或高方差是由假设函数引起的,该函数拟合可用数据,但不能很好地泛化以预测新数据。 它通常是由复杂的函数引起的,该函数会创建许多与数据无关的不必要的曲线和角度。
这种情况在线性回归和逻辑回归都可能会发生。过度拟合的解决方法如下:
1)减少特征变量的数量:
手动选择要保留的功能。
使用模型选择算法(在本课程的后面进行研究)。
2)正则化
保留所有功能,但减小参数\theta_j的大小。
保留所有特征变量,使用正则化。
2.代价模型:
如果在假设函数过度拟合,则可以通过增加其成本来减少函数中某些参数的权重。比如对于如下函数:
如果想要消除和
对结果的影响,我们可以修改代价函数如下:
在末尾添加了额外的参数,现在为了使成本趋近于0,与
必须足够的小。由于我们可减少
与
对结果的影响。由此我们可得到新的函数图像,如下所示:
我们还可以将所有的参数归一化为:
λ是正则化参数。 它确定了我们theta参数的成本被夸大了多少。
通过将上述成本函数与额外的总和结合使用,函数的图像趋于平滑,减少了过度拟合。 如果选择的λ太大,则可能会使功能过于平滑,从而导致拟合不足。
3.正则化线性回归
我们可以将正则化应用于线性回归和逻辑回归,我们将首先进行线性回归。
梯度下降:
修改梯度下降函数,但可分离出来,无需消除
对函数的影响
也可表示为:
正规方程:
修改在正规方程的表达式后如下所示:
L是一个矩阵,左上角为0,对角线下为1,其他任何地方均为0。 它的尺寸应为(n + 1)×(n + 1)。是单位矩阵乘以单个实数。
之前提过当m<n时,为不可逆的,加上\lambdaL之后,
+
变为可逆的。
4.正则化逻辑回归
我们可以以与线性回归相同的方式来正规化逻辑回归以避免过度拟合。 如下图所示,粉红色线条显示的正则函数,蓝色线条表示的非正则函数。
原始代价函数如下:
修改后则为:
第二项的表示明确排除偏差项
.
梯度下降函数将表示为如下所示: