机器学习第十章——神经网络参数的反向传播算法

代价函数

将神经网络的分类定义为两种情况：二类分类和多元分类

二类分类	多元分类
y=0 or 1
1个输出结点	k个输出结点
代价函数:	代价函数:

逻辑回归问题中我们的代价函数为:

神经网络的代价函数：

机器学习第十章——神经网络参数的反向传播算法

代价函数第一行大括号内的值为多元分类中的每个代价函数的求和。

正则项的三重循环求和代表了中间隐藏层的所有参数都已经加上了。

反向传播算法

现在，为了使得代价函数最小化求参数的值，我们需要计算代价函数的偏导数机器学习第十章——神经网络参数的反向传播算法，我们需要采用一种反向传播算法，也就是首先计算最后一层的误差，然后再一层一层反向求出各层的误差，直到倒数第二层。以一个例子来说明反向传播算法：

首先是正向传播的计算：

机器学习第十章——神经网络参数的反向传播算法

反向传播为：

机器学习第十章——神经网络参数的反向传播算法

解释;我们从最后一层的误差开始计算，误差是**单元的预测( 机器学习第十章——神经网络参数的反向传播算法 )与实际值（）之间的误差。

我们用机器学习第十章——神经网络参数的反向传播算法来表示误差，则： =

我们利用这个误差值来计算前一层的误差：机器学习第十章——神经网络参数的反向传播算法

其中机器学习第十章——神经网络参数的反向传播算法是S型函数的导数，=。

而机器学习第十章——神经网络参数的反向传播算法则是权重导致的误差的和，下一步是继续计算第二层的误差：

因为第一层是输入变量，不存在误差。我们有了所有的误差的表达式后，便可以计算代价函数的偏导数了，假设机器学习第十章——神经网络参数的反向传播算法 = 0，即我们不做任何正则化处理时有：

重要的是清楚地知道上面式子中上下标的含义：
l 代表目前所计算的是第几层。
j 代表目前计算层中的**单元的下标，也将是下一层的第j个输入变量的下标。
i 代表下一层中误差单元的下标，是受到权重矩阵中第????行影响的下一层中的误差单元的下标。
如果我们考虑正则化处理，并且我们的训练集是一个特征矩阵而非向量。在上面的特殊情况中，我们需要计算每一层的误差单元来计算代价函数的偏导数。在更为一般的情况中，我们同样需要计算每一层的误差单元，但是我们需要为整个训练集计算误差单元，此时的误差单元也是一个矩阵，我们用机器学习第十章——神经网络参数的反向传播算法来表示这个误差矩阵。第 l 层的第 i 个**单元受到第 j个参数的影响而导致的误差。

反向传播的步骤：

机器学习第十章——神经网络参数的反向传播算法

梯度检验

当我们对一个较为复杂的模型（例如神经网络）使用梯度下降算法时，可能会存在一些不容易察觉的错误，意味着，虽然代价看上去在不断减小，但最终的结果可能并不是最优解。
为了避免这样的问题，我们采取一种叫做梯度的数值检验（Numerical Gradient Checking）方法。这种方法的思想是通过估计梯度值来检验我们计算的导数值是否真的是我们要求的。

对梯度的估计采用的方法是在代价函数上沿着切线的方向选择离两个非常近的点然后计算两个点的平均值用以估计梯度。即对于某个特定的机器学习第十章——神经网络参数的反向传播算法，我们计算出在处和的代价值（是一个非常小的值，通常去0.001），然后除以他们的距离2，用来估计在的导数。