【目标检测】【待更新...】RePr Improved Training of Convolutional Filters阅读翻译

论文地址:https://arxiv.org/abs/1811.07275
代码:好像没公布,我后面再找找
作者:Aaditya Prakash, James Storer, Dinei Florencio, Cha Zhang

参考资料:[CVPR2019]:专门为卷积神经网络设计的训练方法:RePr-知乎

目录

摘要

训练良好的卷积神经网络可以很容易被裁剪(pruning)而不显著降低性能。这是因为网络filters在提取特征时存在不必要的重叠。网络架构的创新,例如skip / dense连接和Inception单元在某种程度上缓解了这个问题,但这些改进伴随着运行时计算和内存需求的增加。我们试图从另一个角度解决这个问题——不是通过改变网络结构,而是通过改变训练方法。我们通过临时裁剪部分filters,之后再恢复这部分模型filters,并循环重复此过程来表明,这种方法减少了学习特征过程中的重叠,模型泛化能力进一步提高。我们在本文中表明,现有的模型剪枝标准在剪枝选择filters的过程中不是最优的,并引入filters间的正交性作为排序标准来确定表达不足的filters。我们的方法既适用于vanilla卷积网络,也适用于更复杂的现代架构,可以提高各种任务的性能,尤其是应用于小型网络时。

1.介绍

卷积神经网络在各种计算机视觉任务中取得了最先进的成果[1,2]。这种成功很大程度上归功于一种新颖的,任务特定的网络架构的创新[3,4]。尽管网络设计存在差异,但不同任务使用的是相同的优化技术。这些技术将每个权重视为单独的实体并独立更新。在开发专门为卷积网络设计的训练过程方面取得了有限的进展,其中filters是网络的基本单元。一个filter不是单个权重参数,而是a stack of spatial kernels。

由于模型通常过度参数化,训练过的卷积网络将包含冗余的filters[5,6]。这就是实现模型压缩的常见做法是裁剪filters[7,8,9,10,11]而不是单独参数[12]的证据。大多数这些修剪方法能够丢弃大量filters,而模型的性能只有轻微的损失。然而具有较少filters的模型不能从头开始训练达到和已被修剪为大致相同尺寸的大型模型的性能[6,11,13]。标准训练应该过程倾向于学习具有不相关与可修剪的filters的模型,即使对于没有任何多余容量的架构也是如此。这表明卷积神经网络(convnets)的训练有改进的余地。

为此,我们提出了一种训练方案,其中在经过一定数量的标准训练迭代后,我们选择暂时丢弃一部分模型filters。在对简化网络进行额外训练后,我们重新引入先前丢弃的filters,使用新权重进行初始化,并继续进行标准训练。我们观察到,在重新引入之前丢弃的filters之后,该模型能够比下降之前获得更高的性能。重复应用该过程获得的模型优于通过标准训练获得的模型,如图1所示并在第4节中讨论。我们在各种任务和各种类型的卷积网络中都观察到了这种改进。该训练过程能够在一系列可能的标准中选择要丢弃的filters从而产生改进的性能,并且通过仔细选择排序标准可以实现进一步的增益。根据最近的一个假设[14],过度参数化网络的相对成功可能主要归因于大量初始子网络。我们的方法旨在保留成功的子网络,同时允许重新初始化不太有用的filters
【目标检测】【待更新...】RePr Improved Training of Convolutional Filters阅读翻译
除了我们新颖的训练策略之外,我们工作第二个主要贡献是探索filters丢弃的标准。我们的实验表明,标准的永久filter裁剪技术在我们的设置中并不是最优的,我们提出了一个可以有效计算的替代度量,并且可以显着提高性能。