深度学习的实用层面 —— 1.9 正则化输入

训练神经网络，其中一个加速训练的方法就是归一化输入。

假设我们有一个训练集，它有两个输入特征，所以输入特征x是二维的，如图是数据集的散点图，归一化输入需要两个步骤，第一步是零均值化，计算公式为 $\mu=\frac{1}{m}\sum_{i=1}^mx^{[i]}$ $x:=x-\mu$ 通过移动训练集，完成零均值化，如下图所示。

第二步是归一化方差，注意，特征 $x_1$ 的方差比特征 $x_2$ 的方差要大得多，我们要做的是给 $\sigma$ 赋值，其计算公式为 $\sigma^2=\frac{1}{m}\sum_{i=1}^m(x^{[i]})^2$ $\sigma^2$ 是一个向量，它的每个特征都有方差。注意我们已经完成零均值化，我们把所有训练数据除于 $\sigma^2$ ，图片最后变成下图

$x_1$ 和 $x_2$ 的方差都等于1，提示一下，如果你用它来调整训练数据，那么用同样的 $\mu$ 和 $\sigma^2$ 来归一化测试集，尤其是你不希望训练集和测试集的归一化有所不同。不论 $\mu$ 的值是什么，也不论 $\sigma^2$ 的值是什么，这两个公式中都会用到它们，所以得用同样的方法调整测试集，而不是在训练集和测试集上分别预估 $\mu$ 和 $\sigma^2$ 。因为我们希望不论是训练数据还是测试数据都是通过相同 $\mu$ 和 $\sigma^2$ 定义的相同数据转换，其中 $\mu$ 和 $\sigma^2$ 是由训练集数据计算得来的。

为什么我们要这么做呢？为什么我们想归一化特征？回想一下代价函数 $J(w,b)=\frac{1}{m}\sum_{i=1}^mL(\hat{y}^{[i]},y^{[i]})$ ，如果使用非归一化的输入特征，代价函数就会像下图一样，这是一个非常细长狭窄的代价函数，如果特征值在不同的范围内，假如 $x_1$ 的取值范围从1到1000，特征 $x_2$ 的取值范围是0-1，结果是参数 $w_1$ 和 $w_2$ 的范围或者比率将会非常不同，图中的数据轴应该是 $w_1$ 和 $w_2$ ，但直观理解，标记为 $w$ 和 $b$ ，代价函数有点像狭长的碗一样。
深度学习的实用层面 —— 1.9 正则化输入
如果画出该函数的部分轮廓，如上图，是一个狭长的函数。

然而如果你归一化特征，代价函数看起来更对称，如果在狭长的代价函数上运行梯度下降法，必须使用一个非常小的学习比率，因为如果是在图中的这个位置，梯度下降法可能需要多次迭代过程，直到最后找到最小值。

深度学习的实用层面 —— 1.9 正则化输入
但如果函数是一个更圆的球形轮廓，那么不论从哪个位置开始，梯度下降法都能够更直接地找到最小值，可以在梯度下降法中使用较大步长，而不是像在狭长函数中反复执行。

当然，实际上w是一个高维向量，因此使用二维绘制w并不能正确地传达直观理解。但总的直观理解是代价函数会更圆一些，而且更容易优化，前提是特征都在相似范围内，而不是例如1到1000,0到1的范围。而是在-1到1范围内或相似偏差，这使得代价函数J优化起来更简单更快速。

实际上如果假设特征 $x_1$ 的范围在0-1之间， $x_2$ 的范围在-1到1之间。 $x_3$ 的范围在1-2之间，它们是相似范围，所以会表现得很好。当它们在非常不同的取值范围内，如其中一个从1到1000，另一个是从0到1，这对优化算法非常不利。但是仅将它们设置为均化零值，假设方差为1，确保所有特征都在相似范围内，通常可以帮助学习算法运行得更快。

所以如果输入特征处于不同范围内，归一化特征值就非常重要了，如果特征值处于相似范围内，那么归一化就不是很重要了。

深度学习的实用层面 —— 1.9 正则化输入

相关推荐