前言：由于本人今年考研结束后才开始接触ML，入门决定从Andrew Ng的ML课程学起。笔记内容主要来自Andrew Ng教授的讲义和学习视频，以及在学习过程中翻阅的资料，顺序大致按照网易云课堂上的目录，大多是自己觉得有意义的或者难懂的内容，然而其中难免掺杂自己的理解，如有错误，敬请大家批评指正。

神经网络：表述(Neural Networks: Representation)

非线性假设（Non-linear Hypotheses）

之前学习的内容里，无论是线性回归还是逻辑回归都有这样一个缺点，即：当特征太多时，计算的负荷会非常大。
之前我们已经看到过，使用非线性的多项式项，能够帮助我们建立更好的分类模型。假设我们有非常多的特征，例如大于100个变量，我们希望用这100个特征来构建一个非线性的多项式模型，结果将是数量非常惊人的特征组合，即便我们只采用两两特征的组合 $x_{1} x_{2} + x_{1} x_{3} + . . . + x_{2} x_{3} + x_{2} x_{4} + . . . + x_{99} x_{100}$ ，我们也会有接近5000个组合而成的特征。这对于一般的逻辑回归来说需要计算的特征太多了,它无法有效的处理这么多特征，这时候就需要神经网络。

神经元和大脑（Neurons and the Brain ）

神经网络是一种很古老的算法，它最初产生的目的是制造能模拟大脑的机器，它逐渐兴起于二十世纪八九十年代，应用得非常广泛。但由于各种原因，在90年代的后期应用减少了。但是最近，神经网络又东山再起了。其中一个原因是：神经网络是计算量有些偏大的算法。但是随着由于近些年计算机的运行速度变快，才足以真正运行起大规模的神经网络。

模型表示（Model Representation）

Machine Learning Notes PartⅣ
如上图所示是类似于神经元的神经网络，其中 $x_{1}, x_{2}, x_{3}$ 是输入单元（input units），将原始数据输入给他们， $a_{1}, a_{2}, a_{3}$ 是中间单元，他们负责将数据进行处理，传递到下一层。最后是输出单元，它负责计算 $h_{θ} (x)$ 。

神经网络模型是许多逻辑单元按照不同层级组织起来的网络，每一层的输出变量都是下一层的输入变量。下图为一个3层的神经网络，第一层成为输入层（Input Layer），最后一层称为输出层（Output Layer），中间一层成为隐藏层（Hidden Layers）。我们为每一层都增加一个偏差单位（bias unit）：
Machine Learning Notes PartⅣ
$a_{i}^{(j)} 代表第 j 层的第 i 个激活单元。 θ^{(j)} 代表从第 j 层映射到第 j + 1 层时的权重的矩阵，例如 θ^{(1)} 代表从第一层映射到第二层的权重的矩阵。其尺寸为：以第 j + 1 层的激活单元数量为行数，以第 j 层的激活单元数加一为列数的矩阵。例如：上图所示的神经网络中 θ^{(1)} 的尺寸为 3 * 4 。$
$a_{1}^{(2)} = g (Θ_{10}^{(1)} x_{0} + Θ_{11}^{(1)} x_{1} + Θ_{12}^{(1)} x_{2} + Θ_{13}^{(1)} x_{3})$
$a_{2}^{(2)} = g (Θ_{20}^{(1)} x_{0} + Θ_{21}^{(1)} x_{1} + Θ_{22}^{(1)} x_{2} + Θ_{23}^{(1)} x_{3})$
$a_{3}^{(2)} = g (Θ_{30}^{(1)} x_{0} + Θ_{31}^{(1)} x_{1} + Θ_{32}^{(1)} x_{2} + Θ_{33}^{(1)} x_{3})$
$h_{Θ} (x) = g (Θ_{10}^{(2)} a_{0}^{(2)} + Θ_{11}^{(2)} a_{1}^{(2)} + Θ_{12}^{(2)} a_{2}^{(2)} + Θ_{13}^{(2)} a_{3}^{(2)})$
通过上述可以得出，每一个a都是由上一层所有的x和每一个x所对应的 $θ$ 决定的(把x, θ, a 分别用矩阵表示，我们可以得到θ⋅X=a )。我们把这样从左到右的算法称为前向传播算法( forward propagation)。

多类分类（Multiclass Classification）

当我们有不止两种分类时（也就是y=1,2,3….），比如以下这种情况，该怎么办？如果我们要训练一个神经网络算法来识别路人、汽车、摩托车和卡车，在输出层我们应该有4个值。例如，第一个值为1或0用于预测是否是行人，第二个值用于判断是否为汽车。
输入向量x有三个维度，两个中间层，输出层4个神经元分别用来表示4类，也就是每一个数据在输出层都会出现 $[a, b, c, d]^{T}$ ，且a,b,c,d中仅有一个为1，表示当前类。下面是该神经网络的可能结构示例：
Machine Learning Notes PartⅣ

神经网络算法的输出结果为四种可能情形之一：

Machine Learning Notes PartⅣ

神经网络：表述(Neural Networks: Representation)

非线性假设（Non-linear Hypotheses）

神经元和大脑（Neurons and the Brain ）

模型表示（Model Representation）

多类分类（Multiclass Classification）

相关推荐