机器学习笔记——人工神经网络（1）

简单的神经网络表示
机器学习笔记——人工神经网络（1）

[\begin{matrix} x_{1} \\ x_{2} \\ x_{3} \end{matrix}] \to [\begin{matrix}  \end{matrix}] \to h_{θ} (x)

神经网络的输入是特征

x_{1}, x_{2}, x_{3}

，输出是假设函数的结果
在神经网络中，仍采用同样的逻辑函数

h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}}

在神经网络中，也称逻辑函数为激励函数，

θ

参数为权重。

x_{0}

为偏置单元，它的值总是等于1
上图中，输入节点Layer1称为输入层，输出假设函数结果的Layer3称为输出层，介于输入层与输出层之间的称为隐藏层。
位于隐藏层的节点(或神经元)称为激励单元。

[\begin{matrix} x_{0} \\ x_{1} \\ x_{2} \\ x_{3} \end{matrix}] \to [\begin{matrix} a_{1}^{(2)} \\ a_{2}^{(2)} \\ a_{3}^{(2)} \end{matrix}] \to h_{θ} (x)

\begin{aligned} a_{i}^{(j)} = "activation" of unit i in layer j \\ Θ^{(j)} = matrix of weights controlling function mapping from layer j to layer j + 1 \end{aligned}

\begin{aligned} a_{1}^{(2)} & = g (Θ_{10}^{(1)} x_{0} + Θ_{11}^{(1)} x_{1} + Θ_{12}^{(1)} x_{2} + Θ_{13}^{(1)} x_{3}) \\ a_{2}^{(2)} & = g (Θ_{20}^{(1)} x_{0} + Θ_{21}^{(1)} x_{1} + Θ_{22}^{(1)} x_{2} + Θ_{23}^{(1)} x_{3}) \\ a_{3}^{(2)} & = g (Θ_{30}^{(1)} x_{0} + Θ_{31}^{(1)} x_{1} + Θ_{32}^{(1)} x_{2} + Θ_{33}^{(1)} x_{3}) \\ h_{Θ} (x) = a_{1}^{(3)} & = g (Θ_{10}^{(2)} a_{0}^{(2)} + Θ_{11}^{(2)} a_{1}^{(2)} + Θ_{12}^{(2)} a_{2}^{(2)} + Θ_{13}^{(2)} a_{3}^{(2)}) \end{aligned}

假设在Layer j有

s_{j}

个单元，Layer j+1有

s_{j + 1}

个单元，那么

Θ^{(j)}

表示从第j层到第j+1层的权重矩阵，是一个

s_{j + 1} \times (s_{j} + 1)

的矩阵

向量化计算
令

\begin{aligned} z_{1}^{(2)} & = Θ_{10}^{(1)} x_{0} + Θ_{11}^{(1)} x_{1} + Θ_{12}^{(1)} x_{2} + Θ_{13}^{(1)} x_{3} \\ z_{2}^{(2)} & = Θ_{20}^{(1)} x_{0} + Θ_{21}^{(1)} x_{1} + Θ_{22}^{(1)} x_{2} + Θ_{23}^{(1)} x_{3} \\ z_{3}^{(2)} & = Θ_{30}^{(1)} x_{0} + Θ_{31}^{(1)} x_{1} + Θ_{32}^{(1)} x_{2} + Θ_{33}^{(1)} x_{3} \end{aligned}

即,

,得到如下表示

\begin{aligned} a_{1}^{(2)} = g (z_{1}^{(2)}) \\ a_{2}^{(2)} = g (z_{2}^{(2)}) \\ a_{3}^{(2)} = g (z_{3}^{(2)}) \end{aligned}

x

与

z_{j}

的向量形式为

\begin{aligned} x = [\begin{matrix} x_{0} \\ x_{1} \\ \dots \\ x_{n} \end{matrix}], & z^{(j)} = [\begin{matrix} z_{1}^{(j)} \\ z_{2}^{(j)} \\ \dots \\ z_{n}^{(j)} \end{matrix}] \end{aligned}

令

x = a^{(1)}

,可以写出向量表示的等式

z^{j} = Θ^{(j - 1)} a^{(j - 1)}

Θ^{(j - 1)}

是

s_{j} \times (n + 1)

的矩阵，

a^{(j - 1)}

是

(n + 1) \times 1

的矩阵，得出

z^{j}

是

s_{j} \times 1

的矩阵，

a^{(j)} = g (z^{(j)})

把函数g作用到

z^{(j)}

的每一个元素上。
在计算了

a^{(j)}

后，增加偏置单元

a_{0}^{(j)} = 1

，得到

z^{j + 1} = Θ^{(j)} a^{(j)}

，进一步计算出最终结果

h_{Θ} (x) = a^{(j + 1)} = g (z^{(j + 1)})

\begin{aligned} A N D : \\ Θ^{(1)} & = [\begin{matrix} - 30 & 20 & 20 \end{matrix}] \\ N O R : \\ Θ^{(1)} & = [\begin{matrix} 10 & - 20 & - 20 \end{matrix}] \\ O R : \\ Θ^{(1)} & = [\begin{matrix} - 10 & 20 & 20 \end{matrix}] \end{aligned}

同或XNOR可以通过与AND、异或NOR、或OR组合得到，在神经网络Layer2计算AND和NOR，再通过Layer3输出层计算OR最终得到XNOR的输出。

\begin{aligned} [\begin{matrix} x_{0} \\ x_{1} \\ x_{2} \end{matrix}] \to [\begin{matrix} a_{1}^{(2)} \\ a_{2}^{(2)} \end{matrix}] \to [\begin{matrix} a^{(3)} \end{matrix}] \to h_{Θ} (x) \end{aligned}

当进行多类别分类时，使假设函数 $h_{Θ} (x)$ 的输出值为一个向量。
例如对有4种类别的分类，令机器学习笔记——人工神经网络（1）