2.神经网络与深度学习(一)-基本概念与随即梯度下降

申明,本阶段机器学习需要一定的高数知识和概率知识。适合本科以上的理工科童鞋学习。

中心思想:不断修正w,b,直到实际输出与期望输出一致(训练),也就是将cost function降低。

(1)感知器与神经元

首先,要知道构造神经网络最基本的单元是感知器。那么什么是感知器呢?

感知器是输入若干‘1’或‘0’信号,输出一个‘1’或‘0’的结构,也就是说它是离散的。

为了表示某个输入参数的重要性,我们引入了权重(weight);

为了表示输出的界限,我们引入了阈值(threhold);输出如果大于阈值,则为1;小于阈值,则为0;

可以用下面的公式表示:

2.神经网络与深度学习(一)-基本概念与随即梯度下降

我们试着把阈值移到等式左面,则得到以下:

2.神经网络与深度学习(一)-基本概念与随即梯度下降

这里的b=-threhold,也就是偏差(biases)。

那么神经元呢?

神经元是感知器的一个功能加强版,神经元与感知器很相似,但是它有一点不同的是其输入值可以取0和1之间的任意值,这也就意味着其输出值不再是‘0’和‘1’了,可以是任意一个值,也就是它现在是连续的。那么这个输出值,到底是多大呢?这里我们定义一个sigmoid函数(s函数)。这里的z=w点乘x+b,如下:

2.神经网络与深度学习(一)-基本概念与随即梯度下降

我们为什么用S函数来定义输出呢?因为指数函数求导很方便,另外还有一个原因,我们先看一下S函数的图像:

2.神经网络与深度学习(一)-基本概念与随即梯度下降

我们可以看到一个很好特性,当其趋向正无穷的时候,y趋近于1。趋向负无穷的时候,y趋向于0。你或许想问了,这个特性有什么用呢?其实很容易理解,他的曲线很平滑。对任何一点权重和偏置的变化都会产生相应的变化。如下式:

2.神经网络与深度学习(一)-基本概念与随即梯度下降

这里感知器和神经元概念介绍完毕了。

(2)神经网络的架构

接下来,我们介绍神经网络的架构。那么神经网络究竟长什么样子呢?如下图:

2.神经网络与深度学习(一)-基本概念与随即梯度下降

第一层是输入层,作为信息的输入来源。第二层是隐藏层,作为一个’黑盒‘存在,用来处理信息等等。第三层是输出层,作为信息输出。我们这里的信息传递都是单向的,是从前(输入)向后(输出)传递的。这种信息传递方式被称为前馈传递,也就是说除了这种传递方式,还有其他的方式,例如递归神经网络,这里不做介绍。

(3)梯度下降

要讲解梯度下降,我们需要先介绍代价函数(cost function)。为什么要引入代价函数呢?

因为我们要量化一个算法所输出的函数值,是否与我们所期望的函数值一致。也就是说,我们的算法是否准确。我们这里的误差用二次函数来量化,如下:

2.神经网络与深度学习(一)-基本概念与随即梯度下降

这里,我们的y(x)为实际算法输出,a为期望输出(也就是测试集)。是不是有点像方差的感觉?

如果,代价函数的值越小,也就越说明我们的算法很准。因此,反过来想。只要我们想办法把代价函数的值变小,那么我们的算法也就是很好的。所以说,贯穿梯度下降算法的核心就是把代价函数的值变小。

好了,我们现在开始分析,很明显代价函数是一个二元函数。我们试着先把一元函数的值变小,如下图:

2.神经网络与深度学习(一)-基本概念与随即梯度下降

这里我们先对Xn和Xp处的值求导,我们可以得到其导数分别小于0和大于0,那么将Xn和Xp都减去其导数,你会发现。Xp和Xn都向Minimum移动了,这也就是说y(Xp)和y(Xn)都减小了。这样,我们就达到目的了。无论X在哪里,Y都是下降(减小)的。

今天就介绍这么多。明天接着讲。

希望有志同道合的小伙伴关注我的公众平台,欢迎您的批评指正,共同交流进步。

2.神经网络与深度学习(一)-基本概念与随即梯度下降