Coursea-吴恩达-machine learning学习笔记（八）【week 4之Neural Networks: Representation】

神经网络(非线性分类)
产生的原因：尝试设计模仿大脑的算法。

神经元表示一个逻辑运算单元。
单一神经元的神经网络表示如下图：
Coursea-吴恩达-machine learning学习笔记（八）【week 4之Neural Networks: Representation】
一般只绘制 $x_{1}, x_{2}, x_{3}, \dots$ 。而 $x_{0}$ 称作偏置单元或偏置神经元，且 $x_{0}$ 总是等于1。

在描述神经元时，将之称为一个有 $S$ 型函数或逻辑函数作为激励函数的人工神经元。
在神经网络术语中，激励函数是对类似非线性函数 $g (z) = \frac{1}{1 + e^{- z}}$ 的另一个称呼。

模型参数 $θ = [\begin{matrix} θ_{0} \\ θ_{1} \\ θ_{2} \\ θ_{3} \end{matrix}]$ 也称权重。

神经网络是由不同的神经元组合在一起：
Coursea-吴恩达-machine learning学习笔记（八）【week 4之Neural Networks: Representation】
其中， $L a y e r 1$ 为输入层， $L a y e r 2$ 为隐藏层， $L a y e r 3$ 为输出层， $L a y e r 1$ 和 $L a y e r 2$ 可添加偏置单元 $x_{0}$ 及 $a_{0}^{(2)}$ (值均总为1)，神经网络中可包含多个隐藏层。

$a_{i}^{(j)}$ 表示第 $j$ 层的第 $i$ 个神经元或单元的激励函数，激励函数是指有一个具体神经元读入计算并输出值；
$Θ^{(j)}$ 为神经网络第 $j$ 层到第 $j + 1$ 层的权重控制矩阵。

a_{1}^{(2)} = g (Θ_{10}^{(1)} x_{0} + Θ_{11}^{(1)} x_{1} + Θ_{12}^{(1)} x_{2} + Θ_{13}^{(1)} x_{3}) a_{2}^{(2)} = g (Θ_{20}^{(1)} x_{0} + Θ_{21}^{(1)} x_{1} + Θ_{22}^{(1)} x_{2} + Θ_{23}^{(1)} x_{3}) a_{3}^{(2)} = g (Θ_{30}^{(1)} x_{0} + Θ_{31}^{(1)} x_{1} + Θ_{32}^{(1)} x_{2} + Θ_{33}^{(1)} x_{3}) h_{Θ} (x) = a_{1}^{(3)} = g (Θ_{10}^{(2)} a_{0}^{(2)} + Θ_{11}^{(2)} a_{1}^{(2)} + Θ_{12}^{(2)} a_{2}^{(2)} + Θ_{13}^{(2)} a_{3}^{(2)})

如果神经网络中，第

j

层有

s_{j}

个单元，第

j + 1

层有

s_{j + 1}

个单元，则

Θ^{(j)}

为

s_{j + 1} \times (s_{j} + 1)

维的矩阵。
“+1”来自

Θ^{(j)}

中添加偏置单元

x_{0}

和

Θ_{0}^{(j)}

，换句话说，输出节点不包含偏置节点，但输入节点会包括。

令 $Θ_{10}^{(1)} x_{0} + Θ_{11}^{(1)} x_{1} + Θ_{12}^{(1)} x_{2} + Θ_{13}^{(1)} x_{3} = Z_{1}^{(2)} Θ_{20}^{(1)} x_{0} + Θ_{21}^{(1)} x_{1} + Θ_{22}^{(1)} x_{2} + Θ_{23}^{(1)} x_{3} = Z_{2}^{(2)} Θ_{30}^{(1)} x_{0} + Θ_{31}^{(1)} x_{1} + Θ_{32}^{(1)} x_{2} + Θ_{33}^{(1)} x_{3} = Z_{3}^{(2)}$

则 $x = [\begin{matrix} x_{0} \\ x_{1} \\ x_{2} \\ x_{3} \end{matrix}]$ $Z^{(2)} = [\begin{matrix} Z_{1}^{(2)} \\ Z_{2}^{(2)} \\ Z_{3}^{(2)} \end{matrix}]$

$\Rightarrow Z^{(2)} = Θ^{(1)} x$ ( $x$ 也可以替换成 $a^{(1)}$ )
$\Rightarrow a^{(2)} = g (Z^{(2)})$ 得到 $a_{1}^{(2)}, a_{2}^{(2)}, a_{3}^{(2)}$
$\Rightarrow A d d a_{0}^{(2)} = 1$
$\Rightarrow Z^{(3)} = Θ^{(2)} a^{(2)}$
$\Rightarrow h_{Θ} (x) = a^{(3)} = g (Z^{(3)})$
整个计算过程称为前向传播

将上述计算过程抽象化：
$\Rightarrow Z_{k}^{(2)} = Θ_{k, 0}^{(1)} x_{0} + Θ_{k, 1}^{(1)} x_{1} + Θ_{k, 2}^{(1)} x_{2} + \dots + Θ_{k, n}^{(1)} x_{n}$
$\Rightarrow x = [\begin{matrix} x_{0} \\ x_{1} \\ x_{2} \\ x_{3} \end{matrix}]$ $Z^{(j)} = [\begin{matrix} Z_{1}^{(j)} \\ Z_{2}^{(j)} \\ Z_{3}^{(j)} \end{matrix}]$
$\Rightarrow$ 令 $x = a^{(1)} \to Z^{(j)} = Θ^{(j - 1)} a^{(j - 1)}$
$\Rightarrow a^{(j)} = g (Z^{(j)})$ 在 $a^{(j)}$ 中增加偏置单元 $a_{0}^{(j)} = 1$
$\Rightarrow Z^{(j + 1)} = Θ^{(j)} a^{(j)}$
$\Rightarrow h_{Θ} (x) = a^{(j + 1)} = g (Z^{(j + 1)})$

应用举例：
利用神经网络计算 $y = x_{1} A N D x_{2}$ 其中 $x_{1}, x_{2} \in {0, 1}$
Coursea-吴恩达-machine learning学习笔记（八）【week 4之Neural Networks: Representation】
加上偏置单元，上图变化如下：

$Θ^{(1)} = [- 30 20 20]$
则： $h_{Θ} (x) = g (- 30 + 20 x_{1} + 20 x_{2})$
在 $g (z)$ 函数中，当 $z = 4.6$ 时， $g (z) = 0.99 \approx 1$ ；当 $z = - 4.6$ 时， $g (z) = 0.01 \approx 0$
所以：

\begin{array}{lcr} x_{1} & x_{2} & h_{Θ} (x) \\ 0 & 0 & g (- 30) \approx 0 \\ 0 & 1 & g (- 10) \approx 0 \\ 1 & 0 & g (- 10) \approx 0 \\ 1 & 1 & g (10) \approx 1 \end{array}

同理：
利用神经网络计算 $y = x_{1} O R x_{2}$ 其中 $x_{1}, x_{2} \in {0, 1}$
$Θ^{(1)} = [- 10 20 20]$
利用神经网络计算 $y = x_{1} N O R x_{2}$ 其中 $x_{1}, x_{2} \in {0, 1}$
$Θ^{(1)} = [10 - 20 - 20]$

利用神经网络计算 $y = N O T x_{1}$ 其中 $x_{1} \in {0, 1}$
Coursea-吴恩达-machine learning学习笔记（八）【week 4之Neural Networks: Representation】
$Θ^{(1)} = [10 - 20]$
则： $h_{Θ} (x) = g (10 - 20 x_{1})$

\begin{array}{lr} x_{1} & h_{Θ} (x) \\ 0 & g (10) \approx 1 \\ 1 & g (- 10) \approx 0 \end{array}

Coursea-吴恩达-machine learning学习笔记（八）【week 4之Neural Networks: Representation】

相关推荐