DL with python(13)——CNN中感受野的入门级理解

本文涉及到的是中国大学慕课《人工智能实践：Tensorflow笔记》第五讲第二节的内容，对感受野这一知识点进行入门级的介绍。

感受野（Receptive Field）

感受野（Receptive Field) 的概念：卷积神经网络各输出层每个像素点在原始图像上的映射区域大小。具体情况如下图所示。
DL with python(13)——CNN中感受野的入门级理解
原始输入图像的大小为5×5，首先使用卷积核1对其进行5×5的卷积操作，得到一个1×1的特征图1，特征图1的一个像素点是原始输入图像中所有像素点的映射，所以其感受野就是5。

然后，使用卷积核2对原始输入图像进行3×3的卷积操作，得到3×3的特征图2，其中每个像素点是原始输入图像中3×3区域的映射，因此每个点的感受野是3。

最后，使用卷积核3对特征图2进行3×3的卷积操作，得到1×1的特征图3，其中一个像素点是特征图2中所有像素点的映射，而特征图2中所有像素点又是原始输入图像所有像素点的映射（虽然有重复）。因此，特征图3中唯一一个像素点的感受野是5。

卷积核大小的选择

当我们采用尺寸不同的卷积核时，最大的区别就是感受野的大小不同，所以经常会采用多层小卷积核来替换一层大卷积核，在保持感受野相同的情况下减少参数量和计算量，例如十分常见的用 2 层 3×3 卷积核来替换 1 层 5×5 卷积核的方法，其计算量的差距如下图所示。
DL with python(13)——CNN中感受野的入门级理解
这里给出详细推导：设输入特征图的宽、高均为 x，卷积计算的步长为 1。显然，两个 3×3 卷积核的参数量为 9 + 9 = 18，小于 5×5 卷积核的 25，前者的参数量更少。

在计算量上，根据图所示的输出特征尺寸计算公式，对于 5×5 卷积核来说，输出特征图共有(x – 5 + 1)^2 个像素点，每个像素点需要进行 5×5 = 25 次乘加运算，则总计算量为 25(x – 5 + 1)^2 = 25x^2 – 200x + 400；

对于两个 3×3 卷积核来说，第一个 3×3 卷积核输出特征图共有(x – 3 + 1)^2 个像素点，每个像素点需要进行 3×3 = 9 次乘加运算，第二个 3×3 卷积核输出特征图共有(x – 3 + 1 – 3+ 1)^2 个像素点，每个像素点同样需要进行 9 次乘加运算，则总计算量为 9(x – 3 + 1)^2 +9 ×(x – 3 + 1 – 3 + 1)^2 = 18 x^2 – 108x + 180；

对二者的总计算量（乘加运算的次数）进行对比，18 x^2 – 200x + 400 < 25x^2 – 200x +400，经过简单数学运算可得 x < 22/7 或 x > 10，x 作为特征图的边长，在大多数情况下显然会是一个大于 10 的值（非常简单的 MNIST 数据集的尺寸也达到了 28×28），所以两层 3×3 卷积核的参数量和计算量，在通常情况下都优于一层 5×5 卷积核，尤其是当原始输入图像尺寸比较大的情况下，两层 3×3 卷积核在计算量上的优势会更加明显。

DL with python(13)——CNN中感受野的入门级理解

感受野（Receptive Field）

卷积核大小的选择

相关推荐