MobileNet-深度可分离卷积

论文地址：https://arxiv.org/abs/1704.04861

MobileNet的核心就是Depthwise separable convolution（深度可分离卷积），它将一般的卷积过程分为了depthwise convolution（逐深度卷积）和pointwise convolution（逐点卷积），在损失一点精度的情况下，计算量大幅下降，速度更快，模型更小。

先来看看一般的卷积过程，如下图：

输入 $12\times 12\times 3$ 的图像，即 $size=12\times 12,channel=3$ ，使用 $5\times 5\times 3$ 的卷积核， $stride=1$ ，无 $padding$ ，则卷积后，输出 $8\times 8 \times 1$ 的图像。

为了得到下图 $channel=256$ 的输出：

那么就需要256个卷积核（一个卷积核输出一个channel），因此总的计算量就为 $8\times 8 \times 5 \times 5 \times 3 \times 256 = 1,228,800$ ,即一个卷积核要在输入图像上滑动 $8\times 8$ 个位置，每个位置进行 $5\times 5 \times 3$ 次运算，一共有 $256$ 个卷积核。

如果用 $D_K \times D_K$ 表示卷积核的尺寸， $D_F \times D_F$ 表示输入feature map的尺寸， $M$ 表示输入channel数， $N$ 表示输出channel数，那么在 $stride=1$ 且有 $padding$ 的情况下，总的计算量为：

$D_K · D_K · M · N · D_F · D_F$

Depthwise separable convolution的第一步是depthwise convolution，如下图：

将原来的 $5 \times 5 \times 3$ 的卷积核变为了3个 $5 \times 5 \times 1$ 的卷积核， $1 \times 1$ 卷积核常被用来减少channel数。每个卷积核只在输入图像的一个channel上操作，最后得到一个 $8 \times 8 \times 3$ 的输出。

这一步的计算量为 $8 \times 8 \times 5 \times 5 \times 1 \times 3=4,800$

第二步是pointwise convolution，如下图：

它使用一个 $1 \times 1 \times 3$ 的卷积核对depthwise convolution的输出图像进行逐点卷积，最终就得到了 $8 \times 8 \times 1$ 的输出。

如果使用256个 $1 \times 1 \times 3$ 的卷积核就能得到 $8\times 8 \times 256$ 的输出图像了。

这一步的计算量为 $8 \times 8 \times 1 \times 1 \times 3 \times 256=49,152$

因此这两步的计算量之和就为 $4,800+49,152=53,952$ ，只有原来的 $\frac{53,952}{1,228,800}=0.04390625$ 倍的计算量。

于是，用上面的符号来表示的话，那么在 $stride=1$ 且有 $padding$ 的情况下，

depthwise convolution的计算量为：

$D_F · D_F · D_k · D_k · M$

pointwise convolution的计算量为：

$D_F · D_F · M · N$

因此Depthwise separable convolution就为一般卷积计算量的：

$\frac{D_F · D_F · D_k · D_k · M + D_F · D_F · M · N}{D_K · D_K · M · N · D_F · D_F}=\frac{1}{N}+\frac{1}{D_K^2}$

现在的问题是，为什么这么做了只损失了一点精度呢？（当然，对于原本就较小的模型来说，使用Depthwise separable convolution的话参数就更少了，性能就会大幅下降而不是只下降一点了）但卷积的一些东西本来就是黑盒，我们并不知道它的详细原理，只知道这么做是有效的。

参考

https://towardsdatascience.com/a-basic-introduction-to-separable-convolutions-b99ec3102728

MobileNet-深度可分离卷积

参考

相关推荐