正则化(Regularization)

问题

machine learning个人笔记系列（四）

如上面两图右侧所示，当模型特征比较多的时候，模型容易过拟合，这会导致模型在训练集上表现很好，但是在测试集上就表现很差。

下面以多变量线性回归为例来说明一下正则化的使用方式及效果。
如下面公式所示，正则化就是在原有的损益函数的后面加上了参数的平方和， $λ$ 是正则化参数，用来调整正则化作用的。

J (θ) = \frac{1}{2 m} [\sum_{i = 1}^{m} (h_{θ} (x^{(i)} - y^{(i)}))^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}] m i n J (θ)

下面再来算一下之前学的多变量线性回归和逻辑回归模型加上正则化后，梯度下降算法的计算公式

损益函数
$J (θ) = \frac{1}{2 m} [\sum_{i = 1}^{m} (h_{θ} (x^{(i)} - y^{(i)}))^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}]$
参数迭代
$θ_{0} := θ_{0} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{0}^{(i)} θ_{j} := θ_{j} - α [\frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{0}^{(i)} - \frac{λ}{m} θ_{j}]$
即 $θ_{j} := θ_{j} (1 - α \frac{λ}{m}) - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{0}^{(i)}$
$1 - α \frac{λ}{m} < 1$
因此正则化实际上是在原有的参数更新基础上额外减去一个值，从而对参数其约束作用。

正则方程：
当数据矩阵没有逆矩阵的时候（m < n, 即样本数小于特征数），使用正则方程不能求解，但是通过添加一个正则化矩阵可以将其转化为一个可逆的矩阵，从而用正则方程求解。公式如下：
原有的正则方程如下：
$θ = (X^{T} X)^{- 1} X^{T} y$
改造后的如下：
$θ = (X^{T} X + λ [\begin{array}{cccccc} 0 \\ 1 \\ 1 \\ . . . \\ 1 \end{array}])^{- 1} X^{T} y$

这里第一行为0，表示 $x_{0}$ ，也即不用对其进行正则化