Neural Networks: Learning

基础知识回顾：https://blog.****.net/weixin_42395916/article/details/81099945
实际应用回顾：https://blog.****.net/weixin_42395916/article/details/81160314

根据前几周的内容我们知道，应用梯度下降法或者其他高级优化算法求解参数需要写出代码计算
1) $J (Θ)$
2) $\frac{\partial}{\partial Θ_{i j}^{l}} J (Θ)$

本节介绍神经网络的代价函数及其偏导项的计算。

相关机器学习概念：
反向传播算法(backpropagation algorithm)

一、代价函数 Cost Function

【Machine Learning, Coursera】机器学习Week5 Neural Networks: Learning
本质上，神经网络是一种通过logistic模型，从旧特征中学习到新特征，经过一定层数的学习后最终输出分类结果的算法。因此，我们可以根据logistic回归的代价函数得到神经网络的代价函数。

逻辑回归的代价函数（含正则项）：

J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} l o g (h_{θ} (x^{(i)})) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)}))] + \frac{λ}{2 m} \sum_{j = 1}^{n} θ_{j}^{2}

神经网络代价函数的表达与之类似，但由于神经网络分类结果是以单位列向量的形式输出的，计算代价函数时不仅需要对所有训练样本的cost求和，还要对每一类的cost求和。此外，正则项需要对每一层的除偏置项外的参数求和。

神经网络的代价函数（含正则项）：

J (Θ) = - \frac{1}{m} \sum_{i = 1}^{m} \sum_{k = 1}^{K} [y_{k}^{(i)} l o g (h_{Θ} (x^{(i)}))_{k} + (1 - y_{k}^{(i)}) l o g (1 - h_{Θ} (x^{(i)}))_{k}] + \frac{λ}{2 m} \sum_{l = 1}^{L - 1} \sum_{i = 1}^{s_{l}} \sum_{j = 1}^{s_{l + 1}} (Θ_{j i}^{l})^{2}

其中， $(h_{Θ} (x))_{i}$ 表示输出层的第i个输出结果， $h_{Θ} (x) \in K$ .

易错点：正则项中并不包含偏置项 $(i, j = 0)$

二、计算 $\frac{\partial}{\partial Θ_{i j}^{l}} J (Θ)$

神经网络代价函数的偏导计算比较复杂，需要用到反向传播算法(backpropagation algorithm)。偏导的计算分为三步：
1) 前向传播算法计算各层激励值
2) 反向传播算法计算各层激励值的误差
3) 求偏导

（一）前向传播算法

*前向传播算法具体参见：https://blog.****.net/weixin_42395916/article/details/81099945

以一个训练样本为例，令输入层的激励值 $a^{(1)} = x$ ，运用前向传播算法得到每层的激励值 $a^{(l)}$ .
【Machine Learning, Coursera】机器学习Week5 Neural Networks: Learning

（二）反向传播算法 Backpropagation Algorithm

线性回归和逻辑函数代价函数（不含正则项）求偏导结果形式均为

\frac{\partial}{\partial θ_{j}} J (θ) = \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}

括号内为计算值和实际值的误差。在神经网络算法中，将误差项记作 $δ_{j}^{(l)}$ ，它捕捉了l层第j个神经节点激励值的误差。我们用反向传播算法计算它。反向传播算法先计算输出层的 $δ$ ，然后计算上一层的 $δ$ ，重复该过程直至第二层。

首先计算输出层的误差，显然，就是激励值减去实际值。用向量形式可写作

δ^{(4)} = a^{(4)} - y

接下来计算隐藏层的误差，计算方法见下图。根据sigmoid函数的性质， $g^{'} (z^{(l)}) = a^{(l)} . * (1 - a^{(l)})$ ，所以有

δ^{(3)} = (Θ^{(3)})^{T} δ^{(4)} . * a^{(3)} . * (1 - a^{(3)})

【Machine Learning, Coursera】机器学习Week5 Neural Networks: Learning

易错点：不用计算输入层的误差，因为这是我们在训练集中观察到的值，所以不存在误差。

（三） $\frac{\partial}{\partial Θ_{i j}^{l}} J (Θ) = D_{i j}^{(l)}$

将上述内容整合起来，下图是根据激励值和误差得到 $J (Θ)$ 对 $Θ_{i j}^{(l)}$ 求偏导的值 $D_{i j}^{(l)}$ 的详细流程（m个训练样本）.
完整的包含正则项的偏导数形式应为

\begin{aligned} D_{i j}^{(l)} = {\begin{cases} \frac{1}{m} \sum_{i = 1}^{m} (e r r o r o f a c t i v a t i o n δ_{i}^{(l + 1)}) * (f e a t u r e v a l u e a_{j}^{(l)}) + \frac{λ}{m} * (p a r a m e t e r v a l u e Θ_{i j}^{l}) & i f j \neq 0 \\ \frac{1}{m} \sum_{i = 1}^{m} (e r r o r o f a c t i v a t i o n δ_{i}^{(l + 1)}) * (f e a t u r e v a l u e a_{j}^{(l)}) & i f j = 0 \end{cases} \end{aligned}

Step1: 初始化
给定m个训练样本，令 $Δ_{i j}^{(l)} = 0$ ，因此 $Δ^{(l)}$ 是一个零矩阵。它用于之后偏导数的计算。

Step2: 计算 $\sum_{i = 1}^{m} (e r r o r o f a c t i v a t i o n) * (f e a t u r e v a l u e)$
对训练样本t=1:m执行以下循环（下图中为i=1:m，但这个i和下面的角标i无关，有歧义，故改成t）:
1. 令 $a^{(1)} := x^{(t)}$
2. 执行前向传播算法得到每层的激励值 $a^{(l)}$
3. 根据 $y^{(t)}$ ，计算 $δ^{(L)} = a^{(L)} - y^{(t)}$
4. 根据 $δ^{(l)} = (Θ^{(l)})^{T} δ^{(l + 1)} . * a^{(l)} . * (1 - a^{(l)})$ ，计算 $δ^{(L - 1)}, δ^{(L - 2)}, . . . δ^{(2)}$
5. 累积偏导数项， $Δ_{i j}^{(l)} := Δ_{i j}^{(l)} + a_{j}^{(l)} δ_{i}^{(l + 1)}$ . 向量化表示为 $Δ^{(l)} := Δ^{(l)} + δ^{(l + 1)} (a^{(l)})^{T}$ ，它是偏导数矩阵

Step3: 计算 $D_{i j}^{(l)}$
写出完整的偏导数表达式 $D_{i j}^{(l)}$

【Machine Learning, Coursera】机器学习Week5 Neural Networks: Learning
注：图中有错， $D_{i j}^{(l)} := \frac{1}{m} (Δ_{i j}^{(l)} + λ Θ_{i j}^{(l)})$ if j ≠0