DL with python(13)——CNN中感受野的入门级理解

本文涉及到的是中国大学慕课《人工智能实践:Tensorflow笔记》第五讲第二节的内容,对感受野这一知识点进行入门级的介绍。

感受野(Receptive Field)

感受野(Receptive Field) 的概念:卷积神经网络各输出层每个像素点在原始图像上的映射区域大小。具体情况如下图所示。
DL with python(13)——CNN中感受野的入门级理解
原始输入图像的大小为5×5,首先使用卷积核1对其进行5×5的卷积操作,得到一个1×1的特征图1,特征图1的一个像素点是原始输入图像中所有像素点的映射,所以其感受野就是5。

然后,使用卷积核2对原始输入图像进行3×3的卷积操作,得到3×3的特征图2,其中每个像素点是原始输入图像中3×3区域的映射,因此每个点的感受野是3。

最后,使用卷积核3对特征图2进行3×3的卷积操作,得到1×1的特征图3,其中一个像素点是特征图2中所有像素点的映射,而特征图2中所有像素点又是原始输入图像所有像素点的映射(虽然有重复)。因此,特征图3中唯一一个像素点的感受野是5。

卷积核大小的选择

当我们采用尺寸不同的卷积核时,最大的区别就是感受野的大小不同,所以经常会采用多层小卷积核来替换一层大卷积核,在保持感受野相同的情况下减少参数量和计算量,例如十分常见的用 2 层 3×3 卷积核来替换 1 层 5×5 卷积核的方法,其计算量的差距如下图所示。
DL with python(13)——CNN中感受野的入门级理解
这里给出详细推导:设输入特征图的宽、高均为 x,卷积计算的步长为 1。显然,两个 3×3 卷积核的参数量为 9 + 9 = 18,小于 5×5 卷积核的 25,前者的参数量更少。

在计算量上,根据图所示的输出特征尺寸计算公式,对于 5×5 卷积核来说,输出特征图共有(x – 5 + 1)^2 个像素点,每个像素点需要进行 5×5 = 25 次乘加运算,则总计算量为 25(x – 5 + 1)^2 = 25x^2 – 200x + 400;

对于两个 3×3 卷积核来说,第一个 3×3 卷积核输出特征图共有(x – 3 + 1)^2 个像素点,每个像素点需要进行 3×3 = 9 次乘加运算,第二个 3×3 卷积核输出特征图共有(x – 3 + 1 – 3+ 1)^2 个像素点,每个像素点同样需要进行 9 次乘加运算,则总计算量为 9(x – 3 + 1)^2 +9 ×(x – 3 + 1 – 3 + 1)^2 = 18 x^2 – 108x + 180;

对二者的总计算量(乘加运算的次数)进行对比,18 x^2 – 200x + 400 < 25x^2 – 200x +400,经过简单数学运算可得 x < 22/7 或 x > 10,x 作为特征图的边长,在大多数情况下显然会是一个大于 10 的值(非常简单的 MNIST 数据集的尺寸也达到了 28×28),所以两层 3×3 卷积核的参数量和计算量,在通常情况下都优于一层 5×5 卷积核,尤其是当原始输入图像尺寸比较大的情况下,两层 3×3 卷积核在计算量上的优势会更加明显。