百度飞桨学习心得
卷积神经网络
卷积神经网络是目前计算机视觉中使用最普遍的模型结构。本章节主要为读者介绍卷积神经网络的一些基础模块,包括:
卷积(Convolution)
池化(Pooling)
ReLU**函数
批归一化(Batch Normalization)
丢弃法(Dropout)
回顾一下,在上一章“一个案例带你吃透深度学习”中,我们介绍了手写数字识别任务,应用的是全连接层的特征提取,即将一张图片上的所有像素点展开成一个1维向量输入网络,存在如下两个问题:
-
输入数据的空间信息被丢失。 空间上相邻的像素点往往具有相似的RGB值,RGB的各个通道之间的数据通常密切相关,但是转化成1维向量时,这些信息被丢失。同时,图像数据的形状信息中,可能隐藏着某种本质的模式,但是转变成1维向量输入全连接神经网络时,这些模式也会被忽略。
-
模型参数过多,容易发生过拟合。 在手写数字识别案例中,每个像素点都要跟所有输出的神经元相连接。当图片尺寸变大时,输入神经元的个数会按图片尺寸的平方增大,导致模型参数过多,容易发生过拟合。
为了解决上述问题,我们引入卷积神经网络进行特征提取,既能提取到相邻像素点之间的特征模式,又能保证参数的个数不随图片尺寸变化。图6 是一个典型的卷积神经网络结构,多层卷积和池化层组合作用在输入图片上,在网络的最后通常会加入一系列全连接层,ReLU**函数一般加在卷积或者全连接层的输出上,网络中通常还会加入Dropout来防止过拟合。
一、卷积(Convolution)
这一小节将为读者介绍卷积算法的原理和实现方案,并通过具体的案例展示如何使用卷积对图片进行操作,主要涵盖如下内容:
卷积计算
填充(padding)
步幅(stride)
感受野(Receptive Field)
多输入通道、多输出通道和批量操作
飞桨卷积API介绍
卷积算子应用举例
卷积计算
卷积是数学分析中的一种积分变换的方法,在图像处理中采用的是卷积的离散形式。这里需要说明的是,在卷积神经网络中,卷积层的实现方式实际上是数学中定义的互相关 (cross-correlation)运算,与数学分析中的卷积定义有所不同,这里跟其他框架和卷积神经网络的教程保持一致,都使用互相关运算作为卷积的定义,具体的计算过程如 图7 所示。
如图7(a)所示:左边的图大小是3×33\times33×3,表示输入数据是一个维度为3×33\times33×3的二维数组;中间的图大小是2×22\times22×2,表示一个维度为2×22\times22×2的二维数组,我们将这个二维数组称为卷积核。先将卷积核的左上角与输入数据的左上角(即:输入数据的(0, 0)位置)对齐,把卷积核的每个元素跟其位置对应的输入数据中的元素相乘,再把所有乘积相加,得到卷积输出的第一个结果
0×1+1×2+2×4+3×5=25 (a)0\times1 + 1\times2 + 2\times4 + 3\times5 = 25 \ \ \ \ \ \ \ (a)
0×1+1×2+2×4+3×5=25 (a)
如图7(b)所示:将卷积核向右滑动,让卷积核左上角与输入数据中的(0,1)位置对齐,同样将卷积核的每个元素跟其位置对应的输入数据中的元素相乘,再把这4个乘积相加,得到卷积输出的第二个结果,
0×2+1×3+2×5+3×6=31 (b)0\times2 + 1\times3 + 2\times5 + 3\times6 = 31 \ \ \ \ \ \ \ (b)
0×2+1×3+2×5+3×6=31 (b)
如图7(c)所示:将卷积核向下滑动,让卷积核左上角与输入数据中的(1, 0)位置对齐,可以计算得到卷积输出的第三个结果,
0×4+1×5+2×7+3×8=43 ©0\times4 + 1\times5 + 2\times7 + 3\times8 = 43 \ \ \ \ \ \ \ ©
0×4+1×5+2×7+3×8=43 ©
如图7(d)所示:将卷积核向右滑动,让卷积核左上角与输入数据中的(1, 1)位置对齐,可以计算得到卷积输出的第四个结果,
0×5+1×6+2×8+3×9=49 (d)0\times5 + 1\times6 + 2\times8 + 3\times9 = 49 \ \ \ \ \ \ \ (d)
0×5+1×6+2×8+3×9=49 (d)
卷积核的计算过程可以用下面的数学公式表示,其中 aaa 代表输入图片, bbb 代表输出特征图,www 是卷积核参数,它们都是二维数组,∑u,v \sum{u,v}{\ }∑u,v 表示对卷积核参数进行遍历并求和。
b[i,j]=∑u,va[i+u,j+v]⋅w[u,v]b[i, j] = \sum_{u,v}{a[i+u, j+v]\cdot w[u, v]}
b[i,j]=
u,v
∑
a[i+u,j+v]⋅w[u,v]
举例说明,假如上图中卷积核大小是2×22\times 22×2,则uuu可以取0和1,vvv也可以取0和1,也就是说:
b[i,j]=a[i+0,j+0]⋅w[0,0]+a[i+0,j+1]⋅w[0,1]+a[i+1,j+0]⋅w[1,0]+a[i+1,j+1]⋅w[1,1]b[i, j] = a[i+0, j+0]\cdot w[0, 0] + a[i+0, j+1]\cdot w[0, 1] + a[i+1, j+0]\cdot w[1, 0] + a[i+1, j+1]\cdot w[1, 1]
b[i,j]=a[i+0,j+0]⋅w[0,0]+a[i+0,j+1]⋅w[0,1]+a[i+1,j+0]⋅w[1,0]+a[i+1,j+1]⋅w[1,1]
读者可以自行验证,当[i,j][i, j][i,j]取不同值时,根据此公式计算的结果与上图中的例子是否一致。
【思考】 当卷积核大小为3×33 \times 33×3时,b和a之间的对应关系应该是怎样的?
二、填充(padding)
在上面的例子中,输入图片尺寸为3×33\times33×3,输出图片尺寸为2×22\times22×2,经过一次卷积之后,图片尺寸变小。卷积输出特征图的尺寸计算方法如下:
如果输入尺寸为4,卷积核大小为3时,输出尺寸为4−3+1=24-3+1=24−3+1=2。读者可以自行检查当输入图片和卷积核为其他尺寸时,上述计算式是否成立。通过多次计算我们发现,当卷积核尺寸大于1时,输出特征图的尺寸会小于输入图片尺寸。说明经过多次卷积之后尺寸会不断减小。为了避免卷积之后图片尺寸变小,通常会在图片的外围进行填充(padding),如 图8 所示。
如图8(a)所示:填充的大小为1,填充值为0。填充之后,输入图片尺寸从变成了,使用的卷积核,输出图片尺寸为。
如图8(b)所示:填充的大小为2,填充值为0。填充之后,输入图片尺寸从变成了,使用的卷积核,输出图片尺寸为。
三、步幅(stride)
图8 中卷积核每次滑动一个像素点,这是步幅为1的特殊情况。图9 是步幅为2的卷积过程,卷积核在图片上移动时,每次移动大小为2个像素点。
当宽和高方向的步幅分别为和时,输出特征图尺寸的计算公式是:
四、感受野(Receptive Field)
输出特征图上每个点的数值,是由输入图片上大小为的区域的元素与卷积核每个元素相乘再相加得到的,所以输入图像上区域内每个元素数值的改变,都会影响输出点的像素值。我们将这个区域叫做输出特征图上对应点的感受野。感受野内每个元素数值的变动,都会影响输出点的数值变化。比如卷积对应的感受野大小就是。