神经网络解决Logistic回归问题及公式向量化推导

一、Logistic问题描述

1、训练集和测试集表示

(1) 有m个训练样本，训练集表示为： ${(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), . . ., (x^{(m)}, y^{(m)})}$ 。其向量化表示为：

X = [\begin{matrix} \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \\ x^{(1)} & x^{(2)} & \cdot & \cdot & \cdot & x^{(m)} \\ \cdot & \cdot & \cdot \\ \cdot & \cdot & \cdot \end{matrix}]

X

的维度是

(n_{x}, m)

，其中

n_{x}

表示一个样本的所有特征（举例：对于一个图片来说，其所有特征就是RGB下的所有的像素点，若图片大小为64*64，则

n_{x} = 64 * 64 * 3

）。

x^{(i)}

是一个向量，表示一个样本。
(2) m个样本对应m个label，因此Y的表示如下：

Y = [\begin{matrix} y^{(1)} & y^{(2)} & \cdot & \cdot & \cdot & y^{(m)} \end{matrix}]

Y

的维度是(1, m)。

2、Logistic回归

Logistic回归的方程是 $y^{(i)} = σ (w^{T} x + b)$ ，其中 $σ (z^{(i)}) = \frac{1}{1 + e^{- z^{(i)}}}$ 。
给定训练集 ${(x^{(1)}, y^{(1)}), (x^{(2)}, y^{(2)}), . . ., (x^{(m)}, y^{(m)})}$ ，我们希望样本的预测结果 ${\hat{y}}^{(i)}$ 与实际结果 $y^{(i)}$ 尽可能地接近。
其代价函数如下：
在Logistic回归模型中，我们并不使用平方和作为我们的目标函数，我们设定的目标函数如下：

L (\hat{y}, y) = - (y l o g \hat{y} + (1 - y) l o g (1 - \hat{y}))

为了验证其可行性，我们可将其分开考虑：
①若y=1，则

L (\hat{y}, y) = - l o g \hat{y}

，若想要使得损失函数最小，则需要

\hat{y}

最大，这满足回归的任务要求。
②若y=0，则

L (\hat{y}, y) = - l o g (1 - \hat{y})

，若想要使得损失函数最小，则需要

\hat{y}

最小，也满足回归的任务要求。
因此，Logistic回归的代价函数便是所有样本的损失函数之和，使用公式表示如下：

\begin{aligned} J (w, b) & = \frac{1}{m} \sum_{i = 1}^{m} L ({\hat{y}}^{(i)}, y^{(i)}) \\ = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} l o g {\hat{y}}^{(i)} + (1 - y^{(i)}) l o g (1 - {\hat{y}}^{(i)})] \end{aligned}

下面的内容中为了方便运算，我们以L函数来进行分析，在最后的过程中才将其转化为J,

J = \frac{1}{m} L

3、转化为神经网络预测模型

Logistic回归问题可以简单地转化为两层的神经网络(也可以叫做单隐层神经网络)，其结构图如下：

输入值

x^{(i)}

是一个样本向量，

w

是参数，此预测模型先基于线性模型，然后经过激励函数得到最终的预测值。

二、前向传播和后向传播

1、前向传播

下面使用一简单的例子介绍前向传播，如下图：

前向传播和我们平时的思维是一致的，即给出输入，通过一次次变换得到输出。

2、后向传播

参数的更新过程是算法结果不断优化的过程：输入数据，根据前向传播可以得到预测值，将预测值和真实值进行比较，得到损失函数，基于损失函数，更新参数，使得每一次的迭代过程损失函数都会减小，这就是更新的主要思想。
下面主要讲后向传播及其推理过程，两层神经网络的模型如下：

反向传播的过程就是从后向前更新参数的过程，更新参数的规则如下：

\begin{aligned} w := w - α \cdot \frac{d J (w, b)}{d w} \\ b := b - α \cdot \frac{d J (w, b)}{d b} \end{aligned}

为了求取参数更新的公式，我们有如下的求导过程：
已知：

\begin{aligned} z & = w^{T} x + b \\ \hat{y} & = a = σ (z) \\ L (a, y) & = - (y l o g a + (1 - y) l o g (1 - a)) \end{aligned}

求dw的过程：

\begin{aligned} d w = \frac{L (w, b)}{d w} & = \frac{d L (w, b)}{d a} \cdot \frac{d a}{d z} \cdot \frac{d z}{d w} (链 式 法 则) \\ = (- \frac{y}{a} + \frac{1 - y}{1 - a}) \cdot a (1 - a) \cdot x \\ = (a - y) x \end{aligned}

又因为：

\begin{aligned} d z = \frac{L (w, b)}{d z} & = \frac{d L (w, b)}{d a} \cdot \frac{d a}{d z} \\ = (- \frac{y}{a} + \frac{1 - y}{1 - a}) \cdot a (1 - a) \\ = a - y \end{aligned}

因此：

d w = d z \cdot x

求db的过程：

\begin{aligned} d b = \frac{L (w, b)}{d b} & = \frac{d L (w, b)}{d a} \cdot \frac{d a}{d z} \cdot \frac{d z}{d b} (链 式 法 则) \\ = (- \frac{y}{a} + \frac{1 - y}{1 - a}) \cdot a (1 - a) \cdot 1 \\ = a - y \end{aligned}

因此，

d b = d z

三、m个样本的梯度下降

下图是一次迭代过程的伪代码：

对于一次迭代的过程，便是先前向传播，更加前向传播的结果后向传播不断更新参数。
对于T次迭代过程的计算，只需要在一次迭代过程外面加一个for循环即可。

四、向量化

1、Z的向量化

\begin{aligned} Z & = [\begin{matrix} z^{(1)} & z^{(2)} & \cdot & \cdot & \cdot & z^{(m)} \end{matrix}] \\ = [\begin{matrix} w^{T} x^{(1)} + b & w^{T} x^{(2)} + b & \cdot & \cdot & \cdot & w^{T} x^{(m)} + b \end{matrix}] \\ = [\begin{matrix} w^{T} x^{(1)} & w^{T} x^{(2)} & \cdot & \cdot & \cdot & w^{T} x^{(m)} \end{matrix}] + [\begin{matrix} b & b & \cdot & \cdot & \cdot & b \end{matrix}] \\ = w^{T} X + b \end{aligned}

2、A的向量化

\begin{aligned} A & = [\begin{matrix} a^{(1)} & a^{(2)} & \cdot & \cdot & \cdot & a^{(m)} \end{matrix}] \\ = [\begin{matrix} σ (z^{(1)}) & σ (a^{(2)}) & \cdot & \cdot & \cdot & σ (a^{(m)}) \end{matrix}] \\ = σ (Z) \end{aligned}

3、J的向量化

\begin{aligned} J & = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} l o g a^{(i)} + (1 - y^{(i)}) l o g (1 - a^{(i)})] \\ = - \frac{1}{m} \sum_{i = 1}^{m} y^{(i)} l o g a^{(i)} - \frac{1}{m} \sum_{i = 1}^{m} (1 - y^{(i)}) l o g (1 - a^{(i)}) \\ = - \frac{1}{m} (y^{(1)} l o g a^{(1)} + y^{(2)} l o g a^{(2)} + . . . + y^{(m)} l o g a^{(m)}) \\ - \frac{1}{m} [(1 - y^{(1)}) l o g (1 - a^{(1)}) + (1 - y^{(2)}) l o g (1 - a^{(2)}) + . . . \\ + (1 - y^{(m)}) l o g (1 - a^{(m)})] \\ = - \frac{1}{m} [\begin{matrix} y^{(1)} & y^{(2)} & \cdot & \cdot & \cdot & y^{(m)} \end{matrix}] [\begin{matrix} l o g a^{(1)} \\ l o g a^{(2)} \\ \cdot \\ \cdot \\ \cdot \\ l o g a^{(m)} \end{matrix}] \\ - \frac{1}{m} [\begin{matrix} 1 - y^{(1)} & 1 - y^{(2)} & \cdot & \cdot & \cdot & 1 - y^{(m)} \end{matrix}] [\begin{matrix} l o g (1 - a^{(1)}) \\ l o g (1 - a^{(2)}) \\ \cdot \\ \cdot \\ \cdot \\ l o g (1 - a^{(m)}) \end{matrix}] \\ = - \frac{1}{m} Y l o g A^{T} - \frac{1}{m} (1 - Y) l o g (1 - A^{T}) \end{aligned}

4、dz的向量化

已知：

\begin{aligned} d z^{(1)} & = a^{(1)} - y^{(1)} \\ d z^{(2)} & = a^{(2)} - y^{(2)} \\ . . . \\ d z^{(m)} & = a^{(m)} - y^{(m)} \end{aligned}

又因为：

\begin{aligned} d Z & = [\begin{matrix} d z^{(1)} & d z^{(2)} & \cdot & \cdot & \cdot & d z^{(m)} \end{matrix}] \\ A & = [\begin{matrix} a^{(1)} & a^{(2)} & \cdot & \cdot & \cdot & a^{(m)} \end{matrix}] \\ Y & = [\begin{matrix} y^{(1)} & y^{(2)} & \cdot & \cdot & \cdot & y^{(m)} \end{matrix}] \end{aligned}

因此：

\begin{aligned} d Z & = [\begin{matrix} d z^{(1)} & d z^{(2)} & \cdot & \cdot & \cdot & d z^{(m)} \end{matrix}] \\ = [\begin{matrix} a^{(1)} - y^{(1)} & a^{(1)} - y^{(2)} & \cdot & \cdot & \cdot & a^{(m)} - y^{(m)} \end{matrix}] \\ = [\begin{matrix} a^{(1)} & a^{(2)} & \cdot & \cdot & \cdot & a^{(m)} \end{matrix}] - [\begin{matrix} y^{(1)} & y^{(2)} & \cdot & \cdot & \cdot & y^{(m)} \end{matrix}] \\ = A - Y \end{aligned}

5、dw的向量化

\begin{aligned} d w & = \frac{1}{m} (x^{(1)} d z^{(1)} + x^{(2)} d z^{(2)} + . . . + x^{(m)} d z^{(m)}) \\ = \frac{1}{m} [\begin{matrix} x^{(1)} & x^{(2)} & \cdot & \cdot & \cdot & x^{(m)} \end{matrix}] [\begin{matrix} d z^{(1)} \\ d z^{(2)} \\ \cdot \\ \cdot \\ \cdot \\ d z^{(m)} \end{matrix}] \\ = \frac{1}{m} X d Z^{T} \end{aligned}

6、db的向量化

\begin{aligned} d b & = \frac{1}{m} \sum_{i = 1}^{m} d z^{(i)} \\ = \frac{1}{m} \cdot n p . s u m (d Z) \end{aligned}

注： np.sum(dZ)是调用python中numpy库的一个函数，其功能是将矩阵的所有元素相加。

7、向量化之后的实现逻辑回归过程

注：这里展示的伪代码都是一次迭代过程，若需要多次迭代，则需要在外层增加for循环。

参考文献：
1、本内容主要来自于coursera上的dl视频，在此加上一些自己的看法和理解。
2、一步步手写神经网络