2.神经网络与深度学习（一）－基本概念与随即梯度下降

申明，本阶段机器学习需要一定的高数知识和概率知识。适合本科以上的理工科童鞋学习。

中心思想：不断修正w,b，直到实际输出与期望输出一致（训练），也就是将cost function降低。

（1）感知器与神经元

首先，要知道构造神经网络最基本的单元是感知器。那么什么是感知器呢？

感知器是输入若干‘1’或‘0’信号，输出一个‘1’或‘0’的结构，也就是说它是离散的。

为了表示某个输入参数的重要性，我们引入了权重（weight）；

为了表示输出的界限，我们引入了阈值（threhold）；输出如果大于阈值，则为1；小于阈值，则为0；

可以用下面的公式表示：

2.神经网络与深度学习（一）－基本概念与随即梯度下降

我们试着把阈值移到等式左面，则得到以下：

2.神经网络与深度学习（一）－基本概念与随即梯度下降

这里的b=-threhold，也就是偏差（biases）。

那么神经元呢？

神经元是感知器的一个功能加强版，神经元与感知器很相似，但是它有一点不同的是其输入值可以取0和1之间的任意值，这也就意味着其输出值不再是‘0’和‘1’了，可以是任意一个值，也就是它现在是连续的。那么这个输出值，到底是多大呢？这里我们定义一个sigmoid函数（s函数）。这里的z=w点乘x+b，如下：

2.神经网络与深度学习（一）－基本概念与随即梯度下降

我们为什么用S函数来定义输出呢？因为指数函数求导很方便，另外还有一个原因，我们先看一下S函数的图像：

2.神经网络与深度学习（一）－基本概念与随即梯度下降

我们可以看到一个很好特性，当其趋向正无穷的时候，y趋近于1。趋向负无穷的时候，y趋向于0。你或许想问了，这个特性有什么用呢？其实很容易理解，他的曲线很平滑。对任何一点权重和偏置的变化都会产生相应的变化。如下式：

2.神经网络与深度学习（一）－基本概念与随即梯度下降

这里感知器和神经元概念介绍完毕了。

（2）神经网络的架构

接下来，我们介绍神经网络的架构。那么神经网络究竟长什么样子呢？如下图：

2.神经网络与深度学习（一）－基本概念与随即梯度下降

第一层是输入层，作为信息的输入来源。第二层是隐藏层，作为一个’黑盒‘存在，用来处理信息等等。第三层是输出层，作为信息输出。我们这里的信息传递都是单向的，是从前（输入）向后（输出）传递的。这种信息传递方式被称为前馈传递，也就是说除了这种传递方式，还有其他的方式，例如递归神经网络，这里不做介绍。

（3）梯度下降

要讲解梯度下降，我们需要先介绍代价函数（cost function）。为什么要引入代价函数呢？

因为我们要量化一个算法所输出的函数值，是否与我们所期望的函数值一致。也就是说，我们的算法是否准确。我们这里的误差用二次函数来量化，如下：

2.神经网络与深度学习（一）－基本概念与随即梯度下降

这里，我们的y（x）为实际算法输出，a为期望输出（也就是测试集）。是不是有点像方差的感觉？

如果，代价函数的值越小，也就越说明我们的算法很准。因此，反过来想。只要我们想办法把代价函数的值变小，那么我们的算法也就是很好的。所以说，贯穿梯度下降算法的核心就是把代价函数的值变小。

好了，我们现在开始分析，很明显代价函数是一个二元函数。我们试着先把一元函数的值变小，如下图：

2.神经网络与深度学习（一）－基本概念与随即梯度下降

这里我们先对Xn和Xp处的值求导，我们可以得到其导数分别小于0和大于0，那么将Xn和Xp都减去其导数，你会发现。Xp和Xn都向Minimum移动了，这也就是说y(Xp)和y(Xn)都减小了。这样，我们就达到目的了。无论X在哪里，Y都是下降（减小）的。

今天就介绍这么多。明天接着讲。

希望有志同道合的小伙伴关注我的公众平台，欢迎您的批评指正，共同交流进步。

2.神经网络与深度学习（一）－基本概念与随即梯度下降