Week 3

神经网络表示 NN Representation

实质上很像是对逻辑回归的多次重复
隐藏层节点输出 $a_i^{[l]}$ ，即l层的第i个节点的输出
对于给出的输入 $x$ ：
- $z^{[1]}=W^{[1]}x+b^{[1]}$
- $a^{[1]}=\sigma(z^{[1]})$
- $z^{[2]}=W^{[2]}a^{[1]}+b^{[2]}$
- $a^{[2]}=\sigma(z{[2]})$

对于多个实例，**输出表示为 $a^{[l](i)}$ ，即第i个实例在第l层的**输出
对于多实例，将实例按列排列，即每行为一种特征，每列为一个实例
每一层的计算过程的向量化表示：
- $Z^{[l]}=W^{[l]}X+b^{[l]}$ ，对于具有n个特征m个实例，对当前第i层，有s个节点，W是一个 $s \times n$ 的矩阵，X是一个 $n \times m$ 的矩阵，b是一个 $1 \times m$ 的矩阵（利用python的广播机制扩展），Z是一个 $s \times m$ 的矩阵，对应各个节点的结果
- $A^{[l]}=\sigma(Z^{[l]})$ ，元素级操作，不改变维度11
对于上面提到的两层网络计算逻辑，改写为（同时完成上面提到的逻辑的m个实例的同时实现）：
- $Z^{[1]}=W^{[1]}X+b^{[1]}$
- $A^{[1]}=\sigma(Z^{[1]})$
- $Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}$
- $A^{[2]}=\sigma(Z{[2]})$

Cousera ▶ Deep Learning ▶ 课程笔记 ▶ Week 3

面对二元分类的情况是，仍然应该使用sigmoid函数（此时注意模型中区分g）
sigmoid和tanh都有一个缺点，即在z取值非常大或者非常小时，其梯度变得非常小，会导致梯度下降变得十分缓慢
线性整流函数，Rectified Linear Unit（ReLU）
- $a=\max(0,z)$
- z为正，导数恒为1；z为负，导数恒为0；z为0时，导数不存在（实现时会得到一个极小值）
- 一个更被广泛使用的函数
- 优点：在z的广泛取值内，各点的梯度距离0比较远，梯度下降收敛相对更快
Leaky ReLU
- 与ReLU基本相似，但是在z为负时，有一个极小的大于零的斜率
- $a=\max(0.01z,z)$

Cousera ▶ Deep Learning ▶ 课程笔记 ▶ Week 3

sigmoid函数
- $\frac{d}{dz}g(z)=\frac{1}{1+e^{(-z)}}(1-\frac{1}{1+e^{(-z)}})=g(z)(1-g(z))=a(1-a)$
tanh函数
- $\frac{d}{dz}g(z)=1-(tanh(z))^2=1-a^2$
ReLU函数
- KaTeX parse error: No such environment: equation at position 25: …dz}g(z)= \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \left\{ …
Leaky ReLU函数
- KaTeX parse error: No such environment: equation at position 25: …dz}g(z)= \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \left\{ …

以两层网络为例
对各层节点表示为 $n^{[0]}, \; n^{[1]}, \; n^{[2]}=1$
有参数 $W^{[1]}, \; b^{[1]}, \; W^{[2]}, \; b^{[2]}$ ，维数分别为 $n^{[1]} \times n^{[0]}, \; n^{[1]} \times 1, \; n^{[2]} \times n^{[1]}, \; n^{[2]} \times 1$
代价函数 $J(W^{[1]}, b^{[1]}, W^{[2]}, b^{[2]})=\frac{1}{m}\sum\limits_{i=1}^{m}L(\hat y, y)$
在使用梯度下降时，将参数随即在全0附近十分重要
对梯度下降，需要计算 $dW^{[1]}, \; db^{[1]}, \; dW^{[2]}, \; db^{[2]}$ ，并更新各个参数
反向传播公式：
- $dZ^{[2]}=A^{[2]}-Y,\;Y=\begin{bmatrix}y^{(1)}&y^{(2)}&\ldots&y^{(m)}\end{bmatrix}$
- $dW^{[2]}=\frac{1}{m}dZ^{[2]}A^{[1]T}$
- $db^{[2]}=\frac{1}{m}np.sum(dZ^{[2]})$
- $dZ^{[1]}=W^{[2]T}dZ^{[2]} * g^{[1]\prime}(Z^{[1]})$
- $dW^{[1]}=\frac{1}{m}dZ^{[1]}X^{T}$
- $db^{[1]}=\frac{1}{m}np.sum(dZ^{[1]})$