卷积神经网络

卷积神经网络是目前计算机视觉中使用最普遍的模型结构。基础模块主要包括：

卷积（Convolution）
池化（Pooling）
ReLU**函数
批归一化（Batch Normalization）
丢弃法（Dropout）

在手写数字识别中，应用的是全连接层的特征提取，即将一张图片上的所有像素点展开成一个1维向量输入网络，存在如下两个问题：

输入数据的空间信息被丢失。
模型参数过多，容易发生过拟合。

为了解决上述问题，我们引入卷积神经网络进行特征提取，既能提取到像相邻素点之间的特征模式，又能保证参数的个数不随图片尺寸变化。图3 是一个典型的卷积神经网络结构，多层卷积和池化层组合作用在输入图片上，在网络的最后通常会加入一系列全连接层，ReLU**函数一般加在卷积或者全连接层的输出上，网络中通常还会加入Dropout来防止过拟合。

卷积神经网络基础

说明：
在卷积神经网络中，计算范围是在像素点的空间邻域内进行的，卷积核参数的数目也远小于全连接层。卷积核本身与输入图片大小无关，它代表了对空间临域内某种特征模式的提取。比如，有些卷积核提取物体边缘特征，有些卷积核提取物体拐角处的特征，图像上不同区域共享同一个卷积核。当输入图片大小不一样时，仍然可以使用同一个卷积核进行操作。

卷积（Convolution）

卷积计算

卷积是数学分析中的一种积分变化的方法，在图像处理中采用的是卷积的离散形式。在卷积神经网络中，卷积层的实现方式实际上是数学中定义的互相关（cross-correlation）运算，与数学分析中的卷积定义有所不同。

具体计算过程：
卷积神经网络基础

说明：

卷积核（kernel）也被叫做滤波器（filter），假设卷积核的高和宽分别为 $k_h$ 和 $k_w$ ，则将称为 $k_h\times k_w$ 卷积，比如 $3×53\times53×5$ 卷积，就是指卷积核的高为3, 宽为5。

在卷积神经网络中，一个卷积算子除了上面描述的卷积过程之外，还包括加上偏置项的操作。例如假设偏置为1，则上面卷积计算的结果为：
$0×1+1×2+2×4+3×5 +1=26$
$0×2+1×3+2×5+3×6+1=32$
$0×4+1×5+2×7+3×8+1=44$
$0×5+1×6+2×8+3×9+1=50$

填充（padding）

在上面的例子中，输入图片尺寸为 $3\times3$ ，输出图片尺寸为 $2\times2$ ，经过一次卷积之后，图片尺寸变小。卷积输出特征图的尺寸计算方法如下：
$H_{out}=H−k_h+1$ $W_{out}=W−w_h+1$

当卷积核尺寸大于1时，输出特征图的尺寸会小于输入图片尺寸。说明经过多次卷积之后尺寸会不断减小。为了避免卷积之后图片尺寸变小，通常会在图片的外围进行填充(padding)，如图5 所示。

卷积神经网络基础

如图5（a）所示：填充的大小为1，填充值为0。填充之后，输入图片尺寸从 $4\times4$ 变成了 $6\times6$ 。
如图5（b）所示：填充的大小为2，填充值为0。填充之后，输入图片尺寸从 $4\times4$ 变成了 $8\times8$ 。

如果在图片高度方向，在第一行之前填充 $p_{h1}$ 行，在最后一行之后填充 $p_{h2}$ 行；在图片的宽度方向，在第1列之前填充 $p_{w1}$ 列，在最后1列之后填充 $p_{w2}$ 列；则填充之后的图片尺寸为 $(H+ph1+ph2)×(W+pw1+pw2)$ 。经过大小为 $k_h\times k_w$ 的卷积核操作之后，输出图片的尺寸为：
$H_{out}=H+2p_{h}−k_h+1$ $W_{out}=W+2p_{w}−w_h+1$
卷积核大小通常使用1，3，5，7这样的奇数，如果使用的填充大小为 $p_h=(k_h−1)/2$ ， $p_w=(k_w−1)/2$ ，则卷积之后图像尺寸不变。例如当卷积核大小为3时，padding大小为1，卷积之后图像尺寸不变；同理，如果卷积核大小为5，使用padding的大小为2，也能保持图像尺寸不变。

步幅（stride）

图5 中卷积核每次滑动一个像素点，这是步幅为1的特殊情况。图6 是步幅为2的卷积过程，卷积核在图片上移动时，每次移动大小为2个像素点。
卷积神经网络基础当宽和高方向的步幅分别为 $s_h$ 和 $s_w$ 时，输出特征图尺寸的计算公式是：

感受野（Receptive Field）

输出特征图上每个点的数值，是由输入图片上大小为 $k_h\times k_w$ 的区域的元素与卷积核每个元素相乘再相加得到的，所以输入图像上 $k_h\times k_w$ 区域内每个元素数值的改变，都会影响输出点的像素值。我们将这个区域叫做输出特征图上对应点的感受野。感受野内每个元素数值的变动，都会影响输出点的数值变化。比如 $3\times3$ 卷积对应的感受野大小就是 $3\times3$ 。

卷积神经网络基础

卷积神经网络

卷积（Convolution）

卷积计算

填充（padding）

步幅（stride）

感受野（Receptive Field）

相关推荐