论文解析之 Wide Residual Networks

论文名: Wide Residual Networks

code:   https://github.com/szagoruyko/wide-residual-networks


引言: 随着研究的深入,如今的神经网络发展趋向于更深,更瘦,作者提出一个疑问,神经网络是否越瘦越深则结果越好? 还是说只要能保证参数的数量,训练一个更胖更浅的网络 是否可行?


网络结构:

论文解析之 Wide Residual Networks

其中,a和b都是何开明的残差网络中所应用的结构,,且b比a更节省计算时间与计算开销,但是作者想研究宽度对神经网络结果的影响,于是采取了结构a进行试验。


如何简单的提升残差模块的表达能力,作者提出了3个方法:

1.加层,更多的层带来更多的参数,在理想状态下,更多的参数能够拟合更复杂的结果

2.通过增加卷积层的宽度(所谓宽度也就是每个卷积层的numoutput)

3.换更大的卷积核


作者认为换卷积核不可行,3X3的卷积核证明十分有效。于是作者选择增加宽度来实验。

论文中,B(3,1)表示一个block内,包含1个3X3的卷积层,1个1X1的卷积层。

那么

B(3,3)就是上图中a的结构

B(3,1,3)就是3X3的卷积层后接1X1的卷积层,随后再接一个3X3的卷积层

B(1,3,1)就是上图中b的结构

B(1,3)就是一个block内一个1X1的卷积层,后接一个3X3的卷积层

B(3,1,1)就是Network in Network俗称NIN的结构


更多的参数需要防止过拟合等情况的发生,在ResNet中采用了增加Batchnorm,作者认为BN层带来了过大的计算开销,于是选择使用dropout,

下图是作者采用的结构

论文解析之 Wide Residual Networks

其中,N代表宽度的倍数,例如原来的卷积层的numoutput是16,如果N是2,那么作者的结构中卷积层的numoutput就是32


结果如下图所示

论文解析之 Wide Residual Networks


上图说明几种方案结果都差不多,作者通过额外的实验发现,B(3,3)的结果最好,B(3,3,3,3)和B(3,3,3)的结果较差,原因分析可能是过多的层影响了信息的传递,不过B(3)的结果最差,由于单个3X3的卷积层对特征的提取能力有限



论文解析之 Wide Residual Networks

上图说明了宽度对结果的影响,论文解析之 Wide Residual Networks

WRN40-4 和 ResNet1001 结果相似,参数量也接近

但是WRN的训练速度比ResNet快8倍


结论就是:

1.宽度能够带来网络表现能力的提升

2.提示深度和提升宽度对于提升网络的表现能力同样有效,直至网络的参数数量过于庞大,不得不需要正则化,也就是stronger regularzation

3.同样的参数数量,宽的网络训练的速度更快


作者在此篇论文中只是提出了一个新的网络模型,这种模型在参数量近似的情况下,拥有比瘦网络更快的训练速度,以及不差的表现能力

不过作者并未对产生这种情况的原因进行详细的解释说明与研究

但是至少为我们自己的神经网络设计过程中提供了一种额外的选择。