重读论文《Network in Network》，发现有几点值得记录的地方，特记录在此！

1.意义

传统的convolution filter 是一个GLM(generalized linear model)，其对图像局部区域的抽象能力有限。
使用基于GLM的传统CNN均内在的假设潜在的图像空间线性可分，但实际上可能并非如此。为解决该问题，传统CNN采用了较多的filter(超完备)对input进行卷积，计算开销大。
众所周知，CNN的浅层提取输入的局部特征，在较深层对这些局部特征进行融合以获得全局特征。若能在浅层获得比GLM滤波器更好的局部特征，则能得到更优良的全局特征，NIN应运而生。

2.创新点

(1).Mlpconv结构

看论文，做笔记系列(1)——Network in Network

Mlpconv layer相对于传统的conv layer 增强了局部特征的抽象能力，在传统的conv后接全连接层即可实现。其中，全连接层是通过1x1卷积核来实现的。说得到此，不得不说一下1x1卷积核的作用。

A.通过1x1卷积核实现了Mlpconv结构；

B.卷积核通道的降维或升维，在GoogleNet中得到了很好的说明；

看论文，做笔记系列(1)——Network in Network

右图在左图的基础上增加1x1 convolution模块，通过控制1x1 convolution的个数可实现较左图维数的降低或增加。

C.实现跨通道的信息交互和融合

在阅读其他博客时发现一种说法，1x1 concolution还有一种用处就是实现跨通道的信息交互和融合。怎么说呢，不能说此种说法错误，本人认为其他大小的卷积核也具有这样的作用，并非仅限于1x1 convolution；
在研究Network in Network的结构过程中，对CNN的卷积过程有了新的认识。其实，每个卷积核可看成是三维的，即(width,height,depth)，width,height即为卷积核的大小，如1x1，3x3等，depth表示输入通道数。谨以cs231n课程的一张图来表示：

看论文，做笔记系列(1)——Network in Network

(2).Global Average Pooling

论文在最后一层采用了全局平均池化，代替全连接层与softmax相连，不仅大大降低了参数。对每个特征图一整张图片进行全局均值池化，这样每张特征图都可以得到一个输出。这样采用均值池化，连参数都省了，可以大大减小网络，避免过拟合，另一方面它有一个特点，每张特征图相当于一个输出特征，然后这个特征就表示了我们输出类的特征。全局平均池化的含义是其卷积核的大小等于上一层feature map的大小。

group用法

题外话，在研究Mplconv的过程中，发现代码中卷积参数中使用了group参数，故特地查询了其用法，简要记录下。
group默认值为1，就是全连接的卷积层，即卷积层的输出(也即是卷积核的个数)与输入是全连接的，每个卷积核遍历每个输入通道。
如果group为2，假设输入是90x100x100x32， 90是数据批大小， 100x100是图像数据shape，32是通道数，要经过一个3x3x48的卷积核，48为卷积核个数。那么对应要将输入的32个通道分成2个16的通道，将输出的48个通道分成2个24的通道。对输出的2个24的通道，第一个24通道与输入的第一个16通道进行全卷积，第二个24通道与输入的第二个16通道进行全卷积。

看论文，做笔记系列(1)——Network in Network

1.意义

2.创新点

(1).Mlpconv结构

(2).Global Average Pooling

group用法

相关推荐