Dual Path Networks(2017)综述
1、 为什么要做这个研究(理论走向和目前缺陷) ?
通过利用rnn探索resnet的相加和densenet的连接的本质作用。根据他们的有点设计一个融合他们各自优点的网络。
2、 他们怎么做这个研究 (方法,尤其是与之前不同之处) ?
做各种假设的前提下分别将resnet和densenet等效为rnn,通过观察等效后的rnn网络得出resnet有利于特征重用,Densenet有利于探索新特征。根据这两个结论,设计DPN。
3、 发现了什么(总结结果,补充和理论的关系)?
设计的DPN能够效果有提升。
个人感觉理论解释很牵强,模型效果提升更可能是对网络魔改的结果,各种参数少,计算少更是在对模型各种优化的结果。
摘要:本文提出一个简单高效模块化的用于图像分类的双路网络(DPN)。发现ResNet支持特征重用,而DenseNet有利于新特征的探索。DPN融合二者思想。比DenseNet, ResNet和ResNeXt快,准,小。
1 引言
本文重点分析和重组直连(sum和concatenate),证明了resnet的直连(sum)模块有利于特征重用,而densenet中的直连(concatenate)有利于新特征的探索。
2相关研究
对于DenseNet的密集连接的解释都是直觉的认为它能够带来特征重用和有利于梯度流动,没有更深层次的解释。本文致力于提供一个对denseNet更深的理解,证明残差事实上是一种特殊的密集连接。并且设计了DPN。
3 重新看ResNet, DenseNet和Higher Order RNN
权重共享的的残差网络相当于一个特殊的RNN。
1、 何为权重共享:即残差网络的非直连层的残差块的参数是一样的。
2、 RNN是如何特殊的:
a) Homogeneous,即第一次的输入时X0, 往后的输入都是0
b) Time invariant,RNN的回环连接的结果是: 输入I + 对I提取特征的结果K。且对I提取特征的层的参数是固定不变的。
当残差块不共享时,残差网络就对应一个每次回环连接的参数都不通的RNN,但是这个RNN还是除第一次输入为x0外,往后输每次输入都是0。
具体证明过程没看太懂,结论就是
1) 残差网络能够对原始输入提取特征后又将原始输入加上作为新的输入,即新的输入里混有大量原始输入,这样能够减少特征冗余,同时也会导致不能提取到新的特征。
2) Densenet能够已经获取的特征上再提取特征,即有利于探索新特征,但是可能多次都探索到的是同样的特征,导致特征冗余。
4 双路网络DPN
4.1 双路架构
兼具重用特征和提取新特征的特性,公式如下:
其中公式(5)有提取新特征的优势,公式(6)有重用特征的优势。
下图为对应网络架构:
4.2 双路网络
上图中(d)(e)两幅图是等效的,为作者设计网络的思想,第三个1*1卷积的输出分割成两部分,一部分用对应元素相加(sum)到残差路径,另外一部分连接到dense block路径。使用了ResNeXt中的分组卷积以提高每个block的学习能力。
考虑到实际中resnet用的更多,故选择残差块作为主干网络,在其基础上加上一个比较瘦的密集连接路径,组成双路网络。这样设计有利于降低模型参数,因为直接相加肯定比concatenate节省参数。
模型复杂度:参数比ResNeXt-101少一些。
计算复杂度:计算比ResNeXt-101少一些。
两个复杂度都是在做了足够多优化的结果,直接把原网络拿来用肯定比原来的多。
5 实验
5.1 在分类任务上实验
5.1.1 ImageNet-1k 数据集
5.1.2 Place365-standard 数据集
5.2 目标检测任务上的实验
5.3 语义分割任务上的实验
6 结论
提出DPN,融合了ResNet重用特征和DenseNet探索新特征的特性。