卷积神经网络基础与经典模型-Task4

1. 卷积神经网络基础

从本节讲解才知道,卷积神经网络中的Conv2d函数中,实现的滤波器与图像element-wise相乘并累加其实是互相关运算,二维互相关的解释如下:

二维互相关(cross-correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称为卷积核或过滤器(filter)。卷积核的尺寸通常小于输入数组,卷积核在输入数组上滑动,在每个位置上,卷积核与该位置处的输入子数组按元素相乘并求和,得到输出数组中相应位置的元素。图1展示了一个互相关运算的例子,阴影部分分别是输入的第一个计算区域、核数组以及对应的输出。

卷积运算,实际上是指:

将核数组上下翻转、左右翻转,再与输入数组做互相关运算。

由于卷积层的核数组是可学习的,所以使用互相关运算与使用卷积运算并无本质区别。

1.1 特征图与感受野

二维卷积层输出的二维数组可以看作是输入在空间维度(宽和高)上某一级的表征,也叫特征图(feature map)。影响元素x的前向计算的所有可能输入区域(可能大于输入的实际尺寸)叫做x的感受野(receptive field)。

卷积神经网络基础与经典模型-Task4
图1 二维互相关运算

二维卷积层输出的二维数组可以看作是输入在空间维度(宽和高)上某一级的表征,也叫特征图(feature map)。影响元素xx的前向计算的所有可能输入区域(可能大于输入的实际尺寸)叫做xx的感受野(receptive field)。

以图1为例,输入中阴影部分的四个元素是输出中阴影部分元素的感受野。我们将图中形状为2×22 \times 2的输出记为YY,将YY与另一个形状为2×22 \times 2的核数组做互相关运算,输出单个元素zz。那么,zzYY上的感受野包括YY的全部四个元素,在输入上的感受野包括其中全部9个元素。可见,我们可以通过更深的卷积神经网络使特征图中单个元素的感受野变得更加广阔,从而捕捉输入上更大尺寸的特征。

1.2 卷积层计算公式

假设原输入的高和宽是nhn_hnwn_w,卷积核的高和宽是khk_hkwk_w,在高的两侧一共填充php_h行,在宽的两侧一共填充pwp_w列,则输出形状为:

输出层形状计算

一般来说,当高步幅(stride in height dim)为shs_h,宽步幅为sws_w时,输出形状为:

(nh+phkh+sh)/sh×(nw+pwkw+sw)/sw \lfloor(n_h+p_h-k_h+s_h)/s_h\rfloor \times \lfloor(n_w+p_w-k_w+s_w)/s_w\rfloor

如果ph=kh1p_h=k_h-1pw=kw1p_w=k_w-1,那么输出形状将简化为(nh+sh1)/sh×(nw+sw1)/sw\lfloor(n_h+s_h-1)/s_h\rfloor \times \lfloor(n_w+s_w-1)/s_w\rfloor。更进一步,如果输入的高和宽能分别被高和宽上的步幅整除,那么输出形状将是(nh/sh)×(nw/sw)(n_h / s_h) \times (n_w/s_w)

ph=pw=pp_h = p_w = p时,我们称填充为pp;当sh=sw=ss_h = s_w = s时,我们称步幅为ss

参数量计算

不考虑偏置的情况下,一个形状为(ci,co,h,w)(c_i, c_o, h, w)的卷积核的参数量是ci×co×h×wc_i \times c_o \times h \times w,与输入图像的宽高无关。假如一个卷积层的输入和输出形状分别是(c1,h1,w1)(c_1, h_1, w_1)(c2,h2,w2)(c_2, h_2, w_2),如果要用全连接层进行连接,参数数量就是c1×c2×h1×w1×h2×w2c_1 \times c_2 \times h_1 \times w_1 \times h_2 \times w_2。使用卷积层可以以较少的参数数量来处理更大的图像。

LeNet

其结构如下所示:

LeNet分为卷积层块和全连接层块两个部分。下面我们分别介绍这两个模块。

卷积神经网络基础与经典模型-Task4

卷积层块里的基本单位是卷积层后接平均池化层:卷积层用来识别图像里的空间模式,如线条和物体局部,之后的平均池化层则用来降低卷积层对位置的敏感性。

卷积层块由两个这样的基本单位重复堆叠构成。在卷积层块中,每个卷积层都使用5×55 \times 5的窗口,并在输出上使用sigmoid**函数。第一个卷积层输出通道数为6,第二个卷积层输出通道数则增加到16。

全连接层块含3个全连接层。它们的输出个数分别是120、84和10,其中10为输出的类别个数。

可以看到,在卷积层块中输入的高和宽在逐层减小。卷积层由于使用高和宽均为5的卷积核,从而将高和宽分别减小4,而池化层则将高和宽减半,但通道数则从1增加到16。全连接层则逐层减少输出个数,直到变成图像的类别数10。

卷积神经网络基础与经典模型-Task4

3. 近期经典模型

LeNet之后,12年出现了AlexNet,之后又陆续出现了VGG,Inception系列,Resnet系列,EfficientNet等等,这里以GoogLeNet为例:

  1. 由Inception基础块组成。
  2. Inception块相当于⼀个有4条线路的⼦⽹络。它通过不同窗口形状的卷积层和最⼤池化层来并⾏抽取信息,并使⽤1×1卷积层减少通道数从而降低模型复杂度。
  3. 可以⾃定义的超参数是每个层的输出通道数,我们以此来控制模型复杂度。

卷积神经网络基础与经典模型-Task4

完整模型结构 :

卷积神经网络基础与经典模型-Task4