吴恩达机器学习笔记——参数的反向传播算法与神经网络的整体实现

是对应网易云课程吴恩达机器学习第十章的笔记。

在这一章，我们想要学习一个给定训练集，确定神经网络参数的算法。

首先我们先从确定参数的代价函数说起。

代价函数

先以单一训练集为例，介绍反向传播算法。

首先，使用正向传播算法可以得到每层每个神经元的**值。

吴恩达机器学习笔记——参数的反向传播算法与神经网络的整体实现

之后，我们使用反向传播算法，得到计算每一个神经元的偏差的公式。吴恩达机器学习笔记——参数的反向传播算法与神经网络的整体实现：第l层第j个神经元的偏差，实际上也就捕捉到了该神经元**值的误差。

吴恩达机器学习笔记——参数的反向传播算法与神经网络的整体实现

其中，经验证，吴恩达机器学习笔记——参数的反向传播算法与神经网络的整体实现可以表示为，此处我们仅计算到。因为直接取得，不存在偏差。

我们可以通过不严格证明得到，吴恩达机器学习笔记——参数的反向传播算法与神经网络的整体实现 =，此时我们暂不考虑，也即暂时认为。至此，我们得到了单一训练集下的代价函数偏导数计算公式。

吴恩达机器学习笔记——参数的反向传播算法与神经网络的整体实现

吴恩达机器学习笔记——参数的反向传播算法与神经网络的整体实现

上图展示了将矩阵向量化和从向量转化为矩阵的方式。

吴恩达机器学习笔记——参数的反向传播算法与神经网络的整体实现

吴恩达机器学习笔记——参数的反向传播算法与神经网络的整体实现

实现数值上的梯度检验的步骤：

梯度下降法和高级优化算法，一般会给出向量的一个初始值，如果将该向量初始化为n*1的零矩阵，则对于每一次迭代，每个下一个隐藏层的神经元对每个特征学到的权重都是相同的，也即产生了很多冗余，学不到什么有趣的特征。所以，我们需要考虑随机初始化的思想。

吴恩达机器学习笔记——参数的反向传播算法与神经网络的整体实现

随机初始化的思想是，将的每一个元素初始化为一个与0接近的值，也即初始化为的一个随机值。然后进行反向传播、梯度检验、梯度下降或其他高级优化算法对代价函数进行优化，从而打破了对称性。

当我们实现一个神经网络时，我们要做以下事情。

吴恩达机器学习笔记——参数的反向传播算法与神经网络的整体实现

选择神经网络架构，也即神经元之间的连接方式，一般有两种默认选项：（1）只有一个隐藏层，这种较为常用（2）有多个隐藏层，每个隐藏层有多个神经单元，一般隐藏单元数越多越好，隐藏单元一般等于特征数或是其几倍时比较好，当然，数目多也会带来较高的运算量。
随机初始化权重。
实现前向传播算法，对于每一个计算
实现计算代价函数的代码。
实现反向传播算法计算代价函数J相对于的偏导数。具体来说是使用for循环对每一个训练样本进行前向传播和反向传播的迭代，得到2...L每层的激励值和delta项，从而计算出导数矩阵，现在高级的向量算法也可以不使用for，但它仍然是非常基础的。
梯度检验。
梯度下降或其他高级优化算法，因为代价函数通常是非凸函数，所以时常收敛到一个局部最小值而非全局，但实际证明该值通常是很小的。反向传播计算出的是下降的方向，而梯度下降算法负责下降。

吴恩达机器学习笔记——参数的反向传播算法与神经网络的整体实现