神经网络--反向传播详细推导过程

概述

以监督学习为例,假设我们有训练样本集 神经网络--反向传播详细推导过程 ,那么神经网络算法能够提供一种复杂且非线性的假设模型 神经网络--反向传播详细推导过程 ,它具有参数 神经网络--反向传播详细推导过程 ,可以以此参数来拟合我们的数据。


为了描述神经网络,我们先从最简单的神经网络讲起,这个神经网络仅由一个“神经元”构成,以下即是这个“神经元”的图示:

神经网络--反向传播详细推导过程


这个“神经元”是一个以 神经网络--反向传播详细推导过程 及截距 神经网络--反向传播详细推导过程 为输入值的运算单元,其输出为 神经网络--反向传播详细推导过程 ,其中函数 神经网络--反向传播详细推导过程 被称为“**函数”。在本教程中,我们选用sigmoid函数作为**函数 神经网络--反向传播详细推导过程

神经网络--反向传播详细推导过程

可以看出,这个单一“神经元”的输入-输出映射关系其实就是一个逻辑回归(logistic regression)。


虽然本系列教程采用sigmoid函数,但你也可以选择双曲正切函数(tanh):


神经网络--反向传播详细推导过程

以下分别是sigmoid及tanh的函数图像

神经网络--反向传播详细推导过程 神经网络--反向传播详细推导过程

神经网络--反向传播详细推导过程 函数是sigmoid函数的一种变体,它的取值范围为 神经网络--反向传播详细推导过程 ,而不是sigmoid函数的 神经网络--反向传播详细推导过程 。


注意,与其它地方(包括OpenClassroom公开课以及斯坦福大学CS229课程)不同的是,这里我们不再令 神经网络--反向传播详细推导过程 。取而代之,我们用单独的参数 神经网络--反向传播详细推导过程 来表示截距。


最后要说明的是,有一个等式我们以后会经常用到:如果选择 神经网络--反向传播详细推导过程 ,也就是sigmoid函数,那么它的导数就是 神经网络--反向传播详细推导过程 (如果选择tanh函数,那它的导数就是 神经网络--反向传播详细推导过程 ,你可以根据sigmoid(或tanh)函数的定义自行推导这个等式。


神经网络模型

所谓神经网络就是将许多个单一“神经元”联结在一起,这样,一个“神经元”的输出就可以是另一个“神经元”的输入。例如,下图就是一个简单的神经网络:

神经网络--反向传播详细推导过程

我们使用圆圈来表示神经网络的输入,标上“神经网络--反向传播详细推导过程”的圆圈被称为偏置节点,也就是截距项。神经网络最左边的一层叫做输入层,最右的一层叫做输出层(本例中,输出层只有一个节点)。中间所有节点组成的一层叫做隐藏层,因为我们不能在训练样本集中观测到它们的值。同时可以看到,以上神经网络的例子中有3个输入单元(偏置单元不计在内),3个隐藏单元及一个输出单元


我们用 神经网络--反向传播详细推导过程 来表示网络的层数,本例中 神经网络--反向传播详细推导过程 ,我们将第 神经网络--反向传播详细推导过程 层记为 神经网络--反向传播详细推导过程 ,于是 神经网络--反向传播详细推导过程 是输入层,输出层是 神经网络--反向传播详细推导过程 。本例神经网络有参数 神经网络--反向传播详细推导过程 ,其中 神经网络--反向传播详细推导过程 (下面的式子中用到)是第 神经网络--反向传播详细推导过程 层第 神经网络--反向传播详细推导过程 单元与第 神经网络--反向传播详细推导过程 层第 神经网络--反向传播详细推导过程 单元之间的联接参数(其实就是连接线上的权重,注意标号顺序), 神经网络--反向传播详细推导过程 是第 神经网络--反向传播详细推导过程 层第 神经网络--反向传播详细推导过程 单元的偏置项。因此在本例中, 神经网络--反向传播详细推导过程 , 神经网络--反向传播详细推导过程 。注意,没有其他单元连向偏置单元(即偏置单元没有输入),因为它们总是输出 神经网络--反向传播详细推导过程。同时,我们用 神经网络--反向传播详细推导过程 表示第 神经网络--反向传播详细推导过程 层的节点数(偏置单元不计在内)。


我们用 神经网络--反向传播详细推导过程 表示第 神经网络--反向传播详细推导过程 层第 神经网络--反向传播详细推导过程 单元的**值(输出值)。当 神经网络--反向传播详细推导过程 时, 神经网络--反向传播详细推导过程 ,也就是第 神经网络--反向传播详细推导过程 个输入值(输入值的第 神经网络--反向传播详细推导过程 个特征)。对于给定参数集合 神经网络--反向传播详细推导过程,我们的神经网络就可以按照函数 神经网络--反向传播详细推导过程 来计算输出结果。本例神经网络的计算步骤如下:


神经网络--反向传播详细推导过程


我们用 神经网络--反向传播详细推导过程 表示第 神经网络--反向传播详细推导过程 层第 神经网络--反向传播详细推导过程 单元输入加权和(包括偏置单元),比如, 神经网络--反向传播详细推导过程 ,则 神经网络--反向传播详细推导过程 。


这样我们就可以得到一种更简洁的表示法。这里我们将**函数 神经网络--反向传播详细推导过程 扩展为用向量(分量的形式)来表示,即 神经网络--反向传播详细推导过程,那么,上面的等式可以更简洁地表示为:


神经网络--反向传播详细推导过程


我们将上面的计算步骤叫作前向传播。回想一下,之前我们用 神经网络--反向传播详细推导过程 表示输入层的**值,那么给定第 神经网络--反向传播详细推导过程 层的**值 神经网络--反向传播详细推导过程 后,第 神经网络--反向传播详细推导过程 层的**值 神经网络--反向传播详细推导过程 就可以按照下面步骤计算得到:


神经网络--反向传播详细推导过程


将参数矩阵化,使用矩阵-向量运算方式,我们就可以利用线性代数的优势对神经网络进行快速求解。


目前为止,我们讨论了一种神经网络,我们也可以构建另一种结构的神经网络(这里结构指的是神经元之间的联接模式),也就是包含多个隐藏层的神经网络。最常见的一个例子是 神经网络--反向传播详细推导过程 层的神经网络,第 神经网络--反向传播详细推导过程 层是输入层,第 神经网络--反向传播详细推导过程 层是输出层,中间的每个层 神经网络--反向传播详细推导过程 与层 神经网络--反向传播详细推导过程 紧密相联。这种模式下,要计算神经网络的输出结果,我们可以按照之前描述的等式,按部就班,进行前向传播,逐一计算第 神经网络--反向传播详细推导过程 层的所有**值,然后是第 神经网络--反向传播详细推导过程 层的**值,以此类推,直到第 神经网络--反向传播详细推导过程 层。这是一个前馈神经网络的例子,因为这种联接图没有闭环或回路。


神经网络也可以有多个输出单元。比如,下面的神经网络有两层隐藏层: 神经网络--反向传播详细推导过程 及 神经网络--反向传播详细推导过程 ,输出层 神经网络--反向传播详细推导过程 有两个输出单元。


神经网络--反向传播详细推导过程


要求解这样的神经网络,需要样本集 神经网络--反向传播详细推导过程 ,其中 神经网络--反向传播详细推导过程 。如果你想预测的输出是多个的,那这种神经网络很适用。(比如,在医疗诊断应用中,患者的体征指标就可以作为向量的输入值,而不同的输出值 神经网络--反向传播详细推导过程 可以表示不同的疾病存在与否。)

反向传导算法

假设我们有一个固定样本集 神经网络--反向传播详细推导过程,它包含 神经网络--反向传播详细推导过程 个样例。我们可以用批量梯度下降法来求解神经网络。具体来讲,对于单个样例 神经网络--反向传播详细推导过程,其代价函数为:

神经网络--反向传播详细推导过程

这是一个(二分之一的)方差代价函数。给定一个包含 神经网络--反向传播详细推导过程 个样例的数据集,我们可以定义整体代价函数为:

神经网络--反向传播详细推导过程

以上关于神经网络--反向传播详细推导过程定义中的第一项是一个均方差项。第二项是一个规则化项(也叫权重衰减项),其目的是减小权重的幅度,防止过度拟合。


[注:通常权重衰减的计算并不使用偏置项 神经网络--反向传播详细推导过程,比如我们在 神经网络--反向传播详细推导过程 的定义中就没有使用。一般来说,将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响。如果你在斯坦福选修过CS229(机器学习)课程,或者在YouTube上看过课程视频,你会发现这个权重衰减实际上是课上提到的贝叶斯规则化方法的变种。在贝叶斯规则化方法中,我们将高斯先验概率引入到参数中计算MAP(极大后验)估计(而不是极大似然估计)。]


权重衰减参数 神经网络--反向传播详细推导过程 用于控制公式中两项的相对重要性。在此重申一下这两个复杂函数的含义:神经网络--反向传播详细推导过程 是针对单个样例计算得到的方差代价函数;神经网络--反向传播详细推导过程 是整体样本代价函数,它包含权重衰减项。


以上的代价函数经常被用于分类和回归问题。在分类问题中,我们用 神经网络--反向传播详细推导过程 或 神经网络--反向传播详细推导过程,来代表两种类型的标签(回想一下,这是因为 sigmoid**函数的值域为 神经网络--反向传播详细推导过程;如果我们使用双曲正切型**函数,那么应该选用 神经网络--反向传播详细推导过程 和 神经网络--反向传播详细推导过程 作为标签)。对于回归问题,我们首先要变换输出值域(译者注:也就是 神经网络--反向传播详细推导过程),以保证其范围为 神经网络--反向传播详细推导过程 (同样地,如果我们使用双曲正切型**函数,要使输出值域为 神经网络--反向传播详细推导过程)。


我们的目标是针对参数 神经网络--反向传播详细推导过程 和 神经网络--反向传播详细推导过程 来求其函数 神经网络--反向传播详细推导过程 的最小值。为了求解神经网络,我们需要将每一个参数 神经网络--反向传播详细推导过程 和 神经网络--反向传播详细推导过程 初始化为一个很小的、接近零的随机值(比如说,使用正态分布 神经网络--反向传播详细推导过程 生成的随机值,其中 神经网络--反向传播详细推导过程 设置为 神经网络--反向传播详细推导过程 ),之后对目标函数使用诸如批量梯度下降法的最优化算法。因为 神经网络--反向传播详细推导过程 是一个非凸函数,梯度下降法很可能会收敛到局部最优解;但是在实际应用中,梯度下降法通常能得到令人满意的结果。最后,需要再次强调的是,要将参数进行随机初始化,而不是全部置为 神经网络--反向传播详细推导过程。如果所有参数都用相同的值作为初始值,那么所有隐藏层单元最终会得到与输入值有关的、相同的函数(也就是说,对于所有 神经网络--反向传播详细推导过程神经网络--反向传播详细推导过程都会取相同的值,那么对于任何输入 神经网络--反向传播详细推导过程 都会有:神经网络--反向传播详细推导过程 )。随机初始化的目的是使对称失效


梯度下降法中每一次迭代都按照如下公式对参数 神经网络--反向传播详细推导过程 和神经网络--反向传播详细推导过程 进行更新:

神经网络--反向传播详细推导过程

其中 神经网络--反向传播详细推导过程 是学习速率。其中关键步骤是计算偏导数。我们现在来讲一下反向传播算法,它是计算偏导数的一种有效方法。


我们首先来讲一下如何使用反向传播算法来计算 神经网络--反向传播详细推导过程 和 神经网络--反向传播详细推导过程,这两项是单个样例 神经网络--反向传播详细推导过程 的代价函数 神经网络--反向传播详细推导过程 的偏导数。一旦我们求出该偏导数,就可以推导出整体代价函数 神经网络--反向传播详细推导过程 的偏导数:


神经网络--反向传播详细推导过程

以上两行公式稍有不同,第一行比第二行多出一项,是因为权重衰减是作用于 神经网络--反向传播详细推导过程 而不是 神经网络--反向传播详细推导过程


反向传播算法的思路如下:给定一个样例 神经网络--反向传播详细推导过程,我们首先进行“前向传导”运算,计算出网络中所有的**值,包括 神经网络--反向传播详细推导过程 的输出值。之后,针对第 神经网络--反向传播详细推导过程 层的每一个节点 神经网络--反向传播详细推导过程,我们计算出其“残差” 神经网络--反向传播详细推导过程,该残差表明了该节点对最终输出值的残差产生了多少影响。对于最终的输出节点,我们可以直接算出网络产生的**值与实际值之间的差距,我们将这个差距定义为 神经网络--反向传播详细推导过程 (第 神经网络--反向传播详细推导过程 层表示输出层)。对于隐藏单元我们如何处理呢?我们将基于节点(译者注:第 神经网络--反向传播详细推导过程 层节点)残差的加权平均值计算 神经网络--反向传播详细推导过程,这些节点以 神经网络--反向传播详细推导过程 作为输入。下面将给出反向传导算法的细节:


  1. 进行前馈传导计算,利用前向传导公式,得到 神经网络--反向传播详细推导过程 直到输出层 神经网络--反向传播详细推导过程 的**值。
  2. 对于第 神经网络--反向传播详细推导过程 层(输出层)的每个输出单元 神经网络--反向传播详细推导过程,我们根据以下公式计算残差:
    神经网络--反向传播详细推导过程
    [译者注:
    神经网络--反向传播详细推导过程
    ]
  3. 对 神经网络--反向传播详细推导过程 的各个层,第 神经网络--反向传播详细推导过程 层的第 神经网络--反向传播详细推导过程 个节点的残差计算方法如下:
    神经网络--反向传播详细推导过程
    {译者注:
    神经网络--反向传播详细推导过程
    将上式中的神经网络--反向传播详细推导过程神经网络--反向传播详细推导过程的关系替换为神经网络--反向传播详细推导过程神经网络--反向传播详细推导过程的关系,就可以得到:
    神经网络--反向传播详细推导过程
    以上逐次从后向前求导的过程即为“反向传导”的本意所在。 
  4. 计算我们需要的偏导数,计算方法如下 :
    神经网络--反向传播详细推导过程
    神经网络--反向传播详细推导过程

最后,我们用矩阵-向量表示法重写以上算法。我们使用“神经网络--反向传播详细推导过程” 表示向量乘积运算符(在Matlab或Octave里用“.*”表示,也称作阿达马乘积)。若 神经网络--反向传播详细推导过程,则 神经网络--反向传播详细推导过程。在上一个教程中我们扩展了 神经网络--反向传播详细推导过程 的定义,使其包含向量运算,这里我们也对偏导数 神经网络--反向传播详细推导过程 也做了同样的处理(于是又有 神经网络--反向传播详细推导过程 )。


那么,反向传播算法可表示为以下几个步骤:

  1. 进行前馈传导计算,利用前向传导公式,得到 神经网络--反向传播详细推导过程直到输出层 神经网络--反向传播详细推导过程 的**值。
  2. 对输出层(第 神经网络--反向传播详细推导过程 层),计算:
    神经网络--反向传播详细推导过程
  3. 对于 神经网络--反向传播详细推导过程 的各层,计算:
    神经网络--反向传播详细推导过程
  4. 计算最终需要的偏导数值:
    神经网络--反向传播详细推导过程


实现中应注意:在以上的第2步和第3步中,我们需要为每一个 神经网络--反向传播详细推导过程 值计算其 神经网络--反向传播详细推导过程。假设 神经网络--反向传播详细推导过程 是sigmoid函数,并且我们已经在前向传导运算中得到了 神经网络--反向传播详细推导过程。那么,使用我们早先推导出的 神经网络--反向传播详细推导过程表达式,就可以计算得到 神经网络--反向传播详细推导过程


最后,我们将对梯度下降算法做个全面总结。在下面的伪代码中,神经网络--反向传播详细推导过程 是一个与矩阵 神经网络--反向传播详细推导过程 维度相同的矩阵,神经网络--反向传播详细推导过程 是一个与 神经网络--反向传播详细推导过程 维度相同的向量。注意这里“神经网络--反向传播详细推导过程”是一个矩阵,而不是“神经网络--反向传播详细推导过程 与 神经网络--反向传播详细推导过程 相乘”。下面,我们实现批量梯度下降法中的一次迭代:


  1. 对于所有 神经网络--反向传播详细推导过程,令 神经网络--反向传播详细推导过程 , 神经网络--反向传播详细推导过程 (设置为全零矩阵或全零向量)
  2. 对于 神经网络--反向传播详细推导过程 到 神经网络--反向传播详细推导过程
    1. 使用反向传播算法计算 神经网络--反向传播详细推导过程 和 神经网络--反向传播详细推导过程
    2. 计算 神经网络--反向传播详细推导过程
    3. 计算 神经网络--反向传播详细推导过程
  3. 更新权重参数:
    神经网络--反向传播详细推导过程

现在,我们可以重复梯度下降法的迭代步骤来减小代价函数 神经网络--反向传播详细推导过程 的值,进而求解我们的神经网络。