本篇笔记主要记录及推导Andrew NG的Machine Learning课程中出现的公式。

　　我们假设对于任意的分类、聚类、回归等问题在自然界中总是存在一个精确的模型与之相对应，接下来我们要做的就是根据获取的样本来反推并确定这个模型。由于我们毕竟无法遍历这个问题所有的情况，所以我们只能根据获取的样本去尽可能接近的确定这个模型。

　　公式化上面这段描述，问题对应的模型就藏在假设空间(Hypothesis) $h_{θ} (x)$ 中，我们需要通过观测样本，确定其中的 $θ$ 值。在确定 $θ$ 值的过程中，定义一个损失函数(Cost Function) $J (θ)$ ，如果我们获取的样本在某一个参数 $θ$ 时使损失值达到最小，即表示当前 $θ$ 值确定的模型可以使预测值很接近观察值。那么这个模型就是我们需要寻找的。

　　对于监督学习，我们要做的就是确定目标函数，损失函数，然后通过样本训练，得到损失值最小的那一组参数值，用该参数值代入目标函数，即可得到对应问题的模型。

一、线性回归模型

1、单一变量的线性回归模型

　　目标函数：

h_{θ} (x) = θ_{0} + θ_{1} x

　　损失函数：

J (θ_{0}, θ_{1}) = \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2}

　　公式说明：
　　 $h_{θ} (x^{(i)}) : 第 i 个样本$
　　 $y^{(i)} : 第 i 个样本对应的实际值$

　　接下来的目标就是找到一组参数值，使得损失函数值最小，即

\underset{θ_{0}, θ_{1}}{m i n i m i z e} J (θ_{0}, θ_{1})

　　求损失函数最小值时，使用梯度下降(Gradient descent)的方法。在微积分中我们学过梯度，梯度方向是函数值下降最快的方向，所以在梯度下降方法中，我们分别求 $θ_{0} 和 θ_{1}$ 的偏导数，然后用该导数值更新参数值。

\begin{matrix} (7) & \begin{aligned} r e p e a t u n t i l c o n v e r g e n c e { \\ θ_{j} := θ_{j} - α \frac{\partial}{\partial θ_{j}} J (θ_{0}, θ_{1}) \\ (f o r j = 1 a n d j = 0) \\ } \end{aligned} \end{matrix}

　　说明，上面公式中的 $:=$ 表示赋值的意思，如果直接写a = 1可能会被误理解为判断a是否等于1。

　　求损失函数 $J (θ_{0}, θ_{1})$ 对 $θ_{0}$ 和 $θ_{1}$ 的偏导数，

\frac{\partial}{\partial θ_{0}} J (θ_{0}, θ_{1}) = \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) \frac{\partial}{\partial θ_{1}} J (θ_{0}, θ_{1}) = \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x^{(i)}

使用偏导数公式对上式展开。

\begin{matrix} (8) & \begin{aligned} r e p e a t u n t i l c o n v e r g e n c e { \\ θ_{0} := θ_{0} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) \\ θ_{1} := θ_{1} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x^{(i)} \\ } \end{aligned} \end{matrix}

2、多变量线性回归模型

　　上一节的模型中只有一个指标 $x$ ，理解了线性回归模型及其寻找最优化参数的过程。接下来将该思路应用到多变量模型中。

（1）目标函数

h_{θ} (x) = θ_{0} x_{0} + θ_{1} x_{1} + θ_{2} x_{2} + \dots + θ_{n} x_{n}

　　上式中的

x_{1}, x_{2}, \dots, x_{n}

都是给定样本中的指标，其中

x_{0} = 1

是人为增加的。
　　如果将目标函数使用向量表示，

h_{θ} (x) = θ^{T} x

（2）损失函数

J (θ) = \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2}

（3）梯度下降

\begin{matrix} (9) & \begin{aligned} r e p e a t u n t i l c o n v e r g e n c e { \\ θ_{j} := θ_{j} - α \frac{\partial}{\partial θ_{j}} J (θ) \\ (f o r j = 0, \dots, n) \\ } \end{aligned} \end{matrix}

　　分别对 $θ_{0}, θ_{1}, θ_{2}$ 求偏导数并进行展开，如下所示

θ_{0} := θ_{0} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) θ_{1} := θ_{1} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{1}^{(i)} θ_{2} := θ_{2} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{2}^{(i)} \dots

（4）公式法

　　如果我们将目标函数向量化， $T X^{T} θ = y$ ，需要求解其中的 $θ$ ，

X θ = y X^{T} X θ = X^{T} y θ = (X^{T} X)^{- 1} X^{T} y

　　这里需要说明一下，

θ, y, X

分别代表的含义。在本文中，向量都是小写字母表示，并且都是列向量，即

n * 1

维。矩阵的维度

m * n

表示有

m

行

n

列。那么上式中，我们假设

m = 4

，

n = 5

其中包括

x_{0}

，给出一组示例数据

\begin{array}{clcr} x_{0} & x_{1} & x_{2} & x_{3} & x_{4} & y \\ 1 & 2104 & 5 & 1 & 45 & 460 \\ 1 & 1416 & 3 & 2 & 40 & 232 \\ 1 & 1534 & 3 & 2 & 30 & 315 \\ 1 & 852 & 2 & 1 & 36 & 178 \end{array}

　　对应的 $X$ 为，每个 $x^{(i)}$ 表示一行数据的话：

X = [\begin{matrix} 1 & 2104 & 5 & 1 & 45 \\ 1 & 1416 & 3 & 2 & 40 \\ 1 & 1534 & 3 & 2 & 30 \\ 1 & 852 & 2 & 1 & 36 \end{matrix}] = [\begin{matrix} (x^{(1)})^{T} \\ (x^{(2)})^{T} \\ (x^{(3)})^{T} \\ (x^{(4)})^{T} \end{matrix}]

　　对应的 $y$ 为：

y = [\begin{matrix} 460 \\ 232 \\ 315 \\ 178 \end{matrix}]

　　对应的 $θ$ 为：

θ = [\begin{matrix} θ_{0} \\ θ_{1} \\ θ_{2} \\ θ_{3} \end{matrix}]

二、逻辑回归模型

1、逻辑回归模型

　　上面的线性回归模型输出结果为连续值，如果我们面对的是一个分类模型，比如判断是否为垃圾邮件，或者其他的分类问题时，就不能直接使用线性回归模型了。

　　逻辑回归模型是在线性回归模型上的一个演变，它通过一个逻辑函数可以将线性回归模型的输出结果转变为0或1的离散输出。

（1）逻辑函数

　　即Logistic Function，也称为Sigmoid Function，如下所示，

g (z) = \frac{1}{1 + e^{- z}}

　　对应的函数图形为：

机器学习公式推导

　　从图中可以看到，横轴是连续取值，但是纵轴上的取值范围被限制在0和1之间，Sigmoid函数可以将连续值转变为0或1的离散值。

　　如果将上面的逻辑函数 $g (z)$ 应用在线性回归模型的输出函数 $h_{θ} (x)$ 上，就可以得到本节所讲的逻辑回归模型。

（2）目标函数

h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}}

　　当 $y = 1$ 时， $h_{θ} (x)$ 的值，可以理解为是对当前样本 $x$ ，在参数 $θ$ 的情况下被预测为1的概率。即

P (y = 1 | x, θ) = h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}}

（3）损失函数

　　在前面的线性回归模型中，损失函数如下

J (θ) = \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2} = \frac{1}{m} \sum_{i = 1}^{m} \frac{1}{2} (h_{θ} (x^{(i)}) - y^{(i)})^{2}

　　上式第二行中将 $\frac{1}{2}$ 向后移动到求和项中，如果将求和项中整体定义为

C o s t (h_{θ} (x), y) = \frac{1}{2} (h_{θ} (x^{(i)}) - y^{(i)})^{2}

，

　　那么线性回归的损失函数可以写成

J (θ) = \frac{1}{m} \sum_{i = 1}^{m} C o s t (h_{θ} (x), y) C o s t (h_{θ} (x), y) = \frac{1}{2} (h_{θ} (x^{(i)}) - y^{(i)})^{2}

　　线性回归使用的是平方损失，如果我们直接将平方损失函数应用到逻辑回归模型中，最终得到的 $J (θ)$ 可能如下图所示，

机器学习公式推导

　　逻辑回归模型中使用的是对数损失，定义如下

C o s t (h_{θ} (x), y) = {\begin{cases} - l o g (h_{θ} (x)) & y = 1 \\ - l o g (1 - h_{θ} (x)) & y = 0 \end{cases}

　　可以画出对数损失函数图形来看，当 $y = 1$ 并且 $h_{θ} (x) = 1$ 时， $C o s t = 0$ ，当 $y = 1$ 并且 $h_{θ} (x) \to 0$ 时， $C o s t \to \infty$ 。 $y = 0$ 时情况类似。

　　最后，将逻辑回归的对数损失函数进行融合，

C o s t (h_{θ} (x), y) = - y l o g (h_{θ} (x)) - (1 - y) l o g (1 - h_{θ} (x))

　　将 $C o s t (h_{θ} (x), y)$ 代入 $J (Θ)$ 可以得到逻辑回归完整的损失函数如下

J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} l o g (h_{θ} (x^{(i)})) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)}))]

　　逻辑回归中使用对数损失函数来求解参数，与采用极大似然估计求参数是一致的。

　　以下为对数损失函数和极大似然估计的分析过程：

　　假设样本服从伯努利分布(0-1分布)，则有
$P (h_{θ} (x) = y) = {\begin{cases} 1 - p & n = 0 \\ p & n = 1 \end{cases}$
　　似然函数如下： $L (θ) = \prod_{i = 1}^{m} P (y = 1 | x_{i}, θ)^{y_{i}} P (y = 0 | x_{i}, θ)^{1 - y_{i}}$
　　对数似然函数为： $l n L (θ) = \sum_{i = 1}^{m} [y_{i} l n (P (y = 1 | x_{i}, θ) + (1 - y_{i}) l n P (y = 0 | x_{i}, θ)] = \sum_{i = 1}^{m} [y_{i} l n (P (y = 1 | x_{i}, θ) + (1 - y_{i}) l n (1 - P (y = 0 | x_{i}, θ))]$
　　根据对数损失函数的定义 $C o s t (y, p (y | x) = - y l n p (y | x) - (1 - y) l n (1 - p (y | x))$
　　那么对于全体样本，损失函数如下： $C o s t (y, p (y | x) = - \sum_{i = 1}^{m} [y_{i} l n p (y_{i} | x_{i}) - (1 - y_{i}) l n (1 - p (y_{i} | x_{i}))]$

　　可以看到，对数损失函数与上面的极大似然函数本质上是等价的。所以，逻辑回归直接采用对数损失函数，与采用极大似然估计是一致的。

（4）梯度下降

　　接下来使用梯度下降方法求解逻辑回归的最佳参数，求解损失函数

J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} l o g (h_{θ} (x^{(i)})) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)}))]

　　的最优解过程如下，

\begin{matrix} (10) & \begin{aligned} r e p e a t & u n t i l c o n v e r g e n c e { \\ θ_{j} := θ_{j} - α \frac{\partial}{θ} J (θ) \\ := θ_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)} \\ } \end{aligned} \end{matrix}

　　以下为求 $\frac{\partial}{\partial θ_{j}} J (θ)$ 的过程，

以下为了简便，将 $h_{θ} (x)$ 记作 $h$ ，那么 $h = \frac{1}{1 + e^{- θ^{T} x}}$ 对 $θ$ 求偏导数如下，
$\begin{aligned} \frac{\partial}{\partial θ} h & = \frac{x e^{- θ^{T} x}}{(1 + e^{- θ^{T} x})^{2}} \\ = x \frac{e^{- θ^{T} x}}{1 + e^{- θ^{T} x}} \frac{1}{1 + e^{- θ^{T} x}} \\ = x (1 - \frac{1}{1 + e^{- θ^{T} x}}) \frac{1}{1 + e^{- θ^{T} x}} \\ = x (1 - h) h \end{aligned}$
将 $C o s t (h_{θ} (x), y) = - y l o g (h_{θ} (x)) - (1 - y) l o g (1 - h_{θ} (x))$ 简记为 $C o s t (h, y) = - y l o g (h) - (1 - y) l o g (1 - h)$
那么 $\begin{aligned} \frac{\partial}{\partial θ} C o s t (h, y) & = - y \frac{1}{h} \frac{\partial}{\partial θ} h - (1 - y) \frac{1}{1 - h} (- \frac{\partial}{\partial θ} h) \\ = - y \frac{1}{h} \frac{\partial}{\partial θ} h + (1 - y) \frac{1}{1 - h} \frac{\partial}{\partial θ} h \\ = \frac{- y (1 - h)}{h (1 - h)} \frac{\partial}{\partial θ} h + \frac{h (1 - y)}{h (1 - h)} \frac{\partial}{\partial θ} h \\ = \frac{- y + y h + h - y h}{h (1 - h)} \frac{\partial}{\partial θ} h \\ = \frac{h - y}{h (1 - h)} \frac{\partial}{\partial θ} h \\ = \frac{h - y}{h (1 - h)} x h (1 - h) \\ = x (h - y) \end{aligned}$
将上式代入 $J (θ) = \frac{1}{m} \sum_{i = 1}^{m} C o s t (h_{θ} (x), y)$ ，可得到
$\begin{aligned} \frac{\partial}{θ} J (θ) & = \frac{1}{m} \sum_{i = 1}^{m} \frac{\partial}{\partial θ} C o s t (h_{θ} (x), y) \\ = \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x^{(i)} \end{aligned}$
那么对于梯度下降，
$\begin{aligned} θ_{j} & := θ_{j} - α \frac{\partial}{θ} J (θ) \\ := θ_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)} \end{aligned}$
因为 $α$ 是一个常量，并且 $\frac{1}{m}$ 对于一个给定的样本也是一个常量，所以可以将 $\frac{α}{m}$ 直接写成 $α$ 。

三、正则化

1、过拟合

　　正则化的目的是防止过拟合，当指标较多，并且训练样本较少时得到的模型可能会出现过拟合。过拟合从函数图像上的理解就是，训练得到的模型完全拟合给定样本，可能出现对于训练样本，损失值为0，而对于未在训练样本中出现过的样本，误差会很大。下图示例了过拟合，

机器学习公式推导

2、线性回归模型正则化

　　图中蓝色线条为线性回归模型的过拟合情况，增加了 $θ_{3} x^{3}$ 和 $θ_{4} x^{4}$ 两项后，曲线完全拟合给定样本。而红色曲线是训练的比较好的情况。在这里，我们如果想将 $θ_{3} x^{3}$ 和 $θ_{4} x^{4}$ 从模型中剔除，可以将损失函数进行一定改造，如下所示，

\underset{θ}{m i n} \frac{1}{2 m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2} + 1000 θ_{3}^{2} + 1000 θ_{4}^{2}

　　上面这个损失函数中，由于给了 $θ_{3}$ 和 $θ_{4}$ 两个很大的系数，所以最终得到 $θ_{3}$ 和 $θ_{4}$ 接近于0才能使损失函数值尽可能小。

　　正则化基本上就是这个过程，会为除 $θ_{0}$ 之外每个参数值增加一个类似的系数。增加了正则化后的线性回归模型损失函数如下，

J (θ) = \frac{1}{2 m} [\sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}]

3、欠拟合

　　假如我们给 $λ$ 设置一个很大的参数，可能会出现过拟合的情况，因为这时候需要得到最小损失值，可能会将所有 $θ$ 全部训练为0。可能最终得到的目标函数是 $h_{θ} (x) = θ_{0}$ ，欠拟合的函数图形如下所示，

机器学习公式推导

4、线性回归模型梯度下降

　　对正则化之后的损失函数进行梯度下降求解参数值的过程如下所示，

\begin{matrix} (11) & \begin{aligned} r e p e a t & u n t i l c o n v e r g e n c e { \\ θ_{0} := θ_{0} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{0}^{(i)} \\ θ_{j} := θ_{j} (1 - α \frac{λ}{m}) - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)} \\ } \end{aligned} \end{matrix}

　　这里更新 $θ_{j}$ 时乘以了一个系数 $1 - α \frac{λ}{m}$ ，由于 $α, λ, m$ 都是正数，所以该系数是一个大于零的分数，最终和之前不同的是在更新 $θ$ 值时会逐渐缩小 $θ$ 值。

5、逻辑回归模型正则化

　　逻辑回归模型的正则化也是在损失函数最后增加正则项，如下所示，

J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} l o g (h_{θ} (x^{(i)})) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)}))] + λ \sum_{j = 1}^{n} θ_{j}^{2}

6、逻辑回归模型梯度下降

\begin{matrix} (12) & \begin{aligned} r e p e a t & u n t i l c o n v e r g e n c e { \\ θ_{0} := θ_{0} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{0}^{(i)} \\ θ_{j} := θ_{j} (1 - α \frac{λ}{m}) - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)} \\ } \end{aligned} \end{matrix}

7、L1正则

8、L2正则

四、神经网络

1、神经网络结构

　　神经网络模型是模拟生物神经元，神经网络中每个节点可以理解成一个变量比如 $x_{i}$ ，不同层之间的连接线可以理解成参数比如 $θ_{j}$ 。神经网络结构如下所示，

机器学习公式推导

　　上图中，第一层中的 $x_{1}, x_{2}, x_{3}$ 即前面回归模型中见到的样本各指标值，第一层也被称为输入层，最后一层的输出就是我们前面介绍到的 $h_{θ} (x)$ 的输出值，最后一层也被称为输出层。并且在实现神经网络模型时会为除输出层之外的每一层增加一个 $x_{0}$ 或$a_0^{(2)}这么一个偏置项。

　　定义几个概念：

$a_{i}^{(j)}$ ，表示第 $j$ 层的第 $i$ 个节点
$Θ^{(j)}$ ，表示从第 $j$ 层到第 $j + 1$ 层的参数矩阵，图中 $Θ^{(1)}$ 是一个 $3 * 4$ 的矩阵，3表示下一层(即第2层)有3个节点，4表示本层(即第1层)有4个节点(包含 $x_{0}$ 项)

　　生物上的神经元之间传递的电信号，一般是高低电平，而非一个连续的值。所以在我们的神经网络中一般会应用一个**函数 $g (x)$ ，以后未作特殊说明， $g (x)$ 一般取Sigmoid函数。上图中神经网络结构对应的表达式如下

a_{1}^{(2)} = g (Θ_{10}^{(1)} x_{0} + Θ_{11}^{(1)} x_{1} + Θ_{12}^{(1)} x_{2} + Θ_{13}^{(1)} x_{3}) a_{2}^{(2)} = g (Θ_{20}^{(1)} x_{0} + Θ_{21}^{(1)} x_{1} + Θ_{22}^{(1)} x_{2} + Θ_{23}^{(1)} x_{3}) a_{3}^{(2)} = g (Θ_{30}^{(1)} x_{0} + Θ_{31}^{(1)} x_{1} + Θ_{32}^{(1)} x_{2} + Θ_{33}^{(1)} x_{3}) h_{Θ} (x) = a_{1}^{(3)} = g (Θ_{10}^{(2)} a_{0}^{(2)} + Θ_{11}^{(2)} a_{1}^{(2)} + Θ_{12}^{(2)} a_{2}^{(2)} + Θ_{13}^{(2)} a_{3}^{(2)})

　　需要注意的是神经网络并不是如上面示例中只有一个中间层，而是可以更多，并且每一层的**函数 $g (x)$ 也可以不相同。

2、神经网络实现的逻辑功能

　　这里用简单的神经网络结构示例如何实现 $X O R, X N O R, O R, A N D, O R$ 等逻辑操作。

（1）AND

　　网络结构如下所示

机器学习公式推导

　　表达式为

h_{Θ} (x) = g (- 30 + 20 x_{1} + 20 x_{2})

（2）OR

　　网络结构如下所示

机器学习公式推导

　　表达式为

h_{Θ} (x) = g (- 10 + 20 x_{1} + 20 x_{2})

（3）NOT

　　网络结构如下所示

机器学习公式推导

　　表达式为

h_{Θ} (x) = g (10 - 20 x_{1})

（4）XNOR

　　网络结构如下所示，要想实现 $X N O R$ 功能，简单的模型就不能实现了。下面同时使用了 $A N D, O R, N O T$ 进行组合，并且构建多层网络模型才得以实现。

机器学习公式推导

3、损失函数

　　神经网络的损失函数如下：

J(\Theta) = -\frac 1m \sum_{i=1}^m\sum_{k=1}^K[y_k^{(i)}log(h_\Theta(x^{(i)})_k) + (1-y_k^{(i)})log(1-(h_\Theta(x^{(i)})_k)] + \frac \lambda {2m}\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_l+1}(\Theta_{ji}^{(l)})^2\tag{1}\label{1}

　　上式中， $L$ 表示神经网络的总层数， $s_{l}$ 表示第 $l$ 层中神经元的个数(不包括偏置单元)。 $h_{Θ} (x) \in R^{K}, （ h_{Θ} (x))_{i} = i^{t h} o u t p u t$ ，其中 $K$ 表示第 $K$ 个节点，那么 $y_{k}^{(i)}$ 表示对于样本 $i$ 的第 $k$ 个输出值。当分析的问题为二分类问题时， $k = 1$ ，当分析的问题为多分类问题时， $k$ 为对应的分类数。

4、BP算法(Backpropagation Algorithm)

　　我们需要根据上一节中列举的损失函数求出全部的 $θ$ 值，得到 $\underset{Θ}{m i n} J (Θ)$ ，接下来用梯度下降求解的话，需要计算 $\frac{\partial}{\partial Θ_{i j}^{(l)}} J (Θ)$ 。

　　对于一个包含两个隐含层的神经网络结构，给定一组样本 $(x, y)$ ，可以依次得到每一层相关数据：

\begin{split}&a^{(1)}=x \\&z^{(2)}=\Theta^{(1)}a^{(1)} \\&a^{(2)}=g(z^{(2)}) \ (add a_0^{(2)})\\&z^{(3)}=\Theta^{(2)}a^{(2)}\\&a^{(3)}=g(z^{(3)})\ (add a_0^{(3)})\\&z^{(4)}=\Theta^{(3)}a^{(3)}\\&a^{(4)}=h_\Theta(x)=g(z^{(4)})\end{split}\tag{2}\label{2}

　　根据公式 $(1)$ ，对于二分类的单个样本，损失函数如下

J(\Theta) = - [ylog(h_\Theta(x)) + (1-y)log(1-(h_\Theta(x))] + \lambda\sum_{l=1}^{L-1}\sum_{i=1}^{s_l}\sum_{j=1}^{s_l+1}(\Theta_{ji}^{(l)})^2 \tag{3}\label{3}

　　以下为该公式的推导过程

计算 $Θ^{(3)}$ 的梯度，结合公式 $(2)$ ：
$\frac {\partial J(\Theta)}{\partial \Theta^{(3)}}=\frac {\partial J(\Theta)}{\partial a^{(4)}}*\frac {\partial a^{(4)}}{\partial z^{(4)}} * \frac {\partial z^{(4)}}{\partial \Theta^{(3)}} \tag{4}\label{4}$
如果将式 $(4)$ 中等号右边前两项定义为 $δ^{(4)}$ ，则有
$\delta^{(4)}=\frac {\partial}{\partial z^{(4)}}J(\Theta)=\frac {\partial J(\Theta)}{\partial a^{(4)}}*\frac {\partial a^{(4)}}{\partial z^{(4)}}\tag{5}\label{5}$
结合 $(3) (5)$ 并且 $a^{(4)} = h_{Θ} (x) = g (z^{(4)})$ 得到如下推导过程：
$\begin{aligned} g (z^{(4)}) & = \frac{1}{1 + e^{- z^{(4)}}} \\ g^{'} (z^{(4)}) & = \frac{e^{- z^{(4)}}}{(1 + e^{- z^{(4)}})^{2}} \\ = g (z^{(4)}) (1 - g (z^{(4)})) \end{aligned}$
$\begin{split}\delta^{(4)}&=\frac {\partial}{\partial z^{(4)}}J(\Theta)\\&=\frac {\partial J(\Theta)}{\partial a^{(4)}}*\frac {\partial a^{(4)}}{\partial z^{(4)}}\\&=-[y\frac 1{h_\Theta(x)}*h_\Theta'(x)+(1-y)\frac 1{1-h_\Theta(x)}*(-(h_\Theta'(x))]\\&=-[y\frac 1{g(z^{(4)})}*g'(z^{(4)})+(1-y)\frac 1{1-g(z^{(4)})}*(-g'(z^{(4)}))]\\&=-[y(1-g(z^{(4)})) + (y-1)g(z^{(4)})]\\&=g(z^{(4)})-y\\&=a^{(4)}-y\end{split}\tag{6}\label{6}$
接下来求 $\frac{\partial J (Θ)}{\partial Θ^{(2)}}$ 和 $\frac{\partial J (Θ)}{\partial Θ^{(1)}}$ ，由式 $(2)$ 可得，
$\frac {\partial J(\Theta)}{\partial \Theta^{(2)}}=\frac {\partial J(\Theta)}{\partial a^{(4)} }\frac {\partial a^{(4)}}{\partial z^{(4)}}\frac {\partial z^{(4)}}{\partial a^{(3)}}\frac {\partial a^{(3)}}{\partial z^{(3)}}\frac {\partial z^{(3)}}{\partial \Theta^{(2)}}\tag{7}\label{7}$
令 $δ^{(3)} = \frac{\partial}{\partial z^{(3)}} J (Θ) = \frac{\partial J (Θ)}{\partial a^{(4)}} \frac{\partial a^{(4)}}{\partial z^{(4)}} \frac{\partial z^{(4)}}{\partial a^{(3)}} \frac{\partial a^{(3)}}{\partial z^{(3)}}$ ，结合 $(5)$ 则有
$\delta^{(3)} = \frac{\partial }{\partial z^{(3)}}J(\Theta)=\delta^{(4)}*\frac {\partial z^{(4)}}{\partial a^{(3)}}\frac {\partial a^{(3)}}{\partial z^{(3)}}=\delta^{(4)}*\Theta^{(3)}*g'(z^{(3)})\tag{8}\label{8}$
$\frac {\partial J(\Theta)}{\partial \Theta^{(1)}}=\frac {\partial J(\Theta)}{\partial a^{(4)} }\frac {\partial a^{(4)}}{\partial z^{(4)}}\frac {\partial z^{(4)}}{\partial a^{(3)}}\frac {\partial a^{(3)}}{\partial z^{(3)}}\frac {\partial z^{(3)}}{\partial a^{(2)}}\frac {\partial a^{(2)}}{\partial z^{(2)}}\frac {\partial z^{(2)}}{\partial \Theta^{(1)}}\tag{9}\label{9}$
令 $δ^{(2)} = \frac{\partial}{\partial z^{(2)}} J (Θ) = \frac{\partial J (Θ)}{\partial a^{(4)}} \frac{\partial a^{(4)}}{\partial z^{(4)}} \frac{\partial z^{(4)}}{\partial a^{(3)}} \frac{\partial a^{(3)}}{\partial z^{(3)}} \frac{\partial z^{(3)}}{\partial a^{(2)}} \frac{\partial a^{(2)}}{\partial z^{(2)}}$
结合 $(8)$ 有
$\delta^{(2)}=\frac{\partial }{\partial z^{(2)}}J(\Theta)=\delta^{(3)}*\frac {\partial z^{(3)}}{\partial a^{(2)}}\frac {\partial a^{(2)}}{\partial z^{(2)}}=\delta^{(3)}*\Theta^{(2)}*g'(z^{(2)})\tag{10}\label{10}$
结合式 $(5) (8) (10)$ 可以提炼出一个式子，
$\delta^{(l)}=\frac{\partial }{\partial z^{(l)}}J(\Theta)\tag{11}\label{11}$
正是有了式 $(11)$ 的存在，当反向BP算法反向计算时，会根据保存的上一步的计算结果，进行一些简单计算得到下一层。这样在神经网络很复杂的时候，可以避免大量重复计算。
$(4)$ 中最后一项 $\frac{\partial z^{(4)}}{\partial Θ^{(3)}} = a^{(3)}$ ，所以 $\frac {\partial J(\Theta)}{\partial \Theta^{(3)}}=\delta^{(4)}*a^{(3)}=(a^{(4)}-y)a^{(3)}\tag{12}\label{12}$
$(7)$ 中最后一项 $\frac{\partial z^{(3)}}{\partial Θ^{(2)}} = a^{(2)}$ ，所以 $\frac {\partial J(\Theta)}{\partial \Theta^{(2)}}=\delta^{(3)} * a^{(2)}=\delta^{(4)}*\Theta^{(3)}*g'(z^{(3)})*a^{(2)}\tag{13}\label{13}$
$(9)$ 中最后一项 $\frac{\partial z^{(2)}}{\partial Θ^{(1)}} = a^{(1)}$ ，所以 $\begin{matrix} (14) & \frac{\partial J (Θ)}{\partial Θ^{(1)}} = δ^{(2)} * a^{(1)} = δ^{(3)} * Θ^{(2)} * g^{'} (z^{(2)}) * a^{(1)} \end{matrix}$

　　最后对于上面的四层神经网络模型，结合公式推导过程，可以得到PPT中如下公式， $δ_{j}^{(l)}$ 可以理解为第 $l$ 层第 $j$ 个节点的误差。

δ_{j}^{(4)} = a_{j}^{(4)} - y_{j} δ_{j}^{(3)} = (Θ^{(3)})^{T} δ^{(4)} . * g^{'} (z^{(3)}) δ_{j}^{(2)} = (Θ^{(2)})^{T} δ^{(3)} . * g^{'} (z^{(2)})

机器学习公式推导

一、线性回归模型

1、单一变量的线性回归模型

2、多变量线性回归模型

（1）目标函数

（2）损失函数

（3）梯度下降

（4）公式法

二、逻辑回归模型

1、逻辑回归模型

（1）逻辑函数

（2）目标函数

（3）损失函数

（4）梯度下降

三、正则化

1、过拟合

2、线性回归模型正则化

3、欠拟合

4、线性回归模型梯度下降

5、逻辑回归模型正则化

6、逻辑回归模型梯度下降

四、神经网络

1、神经网络结构

2、神经网络实现的逻辑功能

（1）AND

（2）OR

（3）NOT

（4）XNOR

3、损失函数

4、BP算法(Backpropagation Algorithm)

相关推荐