论文阅读之identity mapping
论文题目:《Identity Mappings in Deep Residual Networks》
论文地址:https://arxiv.org/abs/1603.05027
发表时间:2016 ECCV
开源代码:https://github.com/KaimingHe/ resnet-1k-layers
1. Abstract
分析了残差模块的传播方式,能过解释为什么使用恒等映射(identity mapping)作为跳跃连接和加和的**项,能使得前向和反向的信号能直接在模块之间传播。并且通过一系列的消融实验来证明恒等映射的重要性。
2 Introduction
上图的残差模块的通式可写成:
- 其中是恒等映射,
- 是残差方程
- 是ReLU**函数
ResNet 的central idea 是使用恒等映射,来学习一个关于的可加性残差函数。
In this paper, we analyze deep residual networks by focusing on creating a “direct” path for propagating information — not only within a residual unit, but through the entire network. 作者的推导展示了,如果都是恒等映射,无论是前向还是反向传播,信号都会直接一个单元直接传递到任一其他单元,使得训练变得简单。
为了了解跳跃连接的作用,分析和比较了的各种类型。我们发现了He[2016]中使用的恒等映射 在我们所有研究的类型中,误差衰减最快,训练误差最低,而使用缩放、门控以及1×1 卷积的跳跃连接都产生了很高的训练损失和误差。这些实验表明,一个“干净”的信息通路 对于简化优化是很有帮助的。
为了构建恒等映射, 使用了BN和ReLU作为weight layer的预**处理。
3. Analysis of Deep Residual Networks
由第四个公式可以得到的一些的特性;
- 对于任意深层的特征 ,都可通过任意浅层的特征 加上残差表示。
- 对于特征 为所有残差的和加上, 而plain network为所有层的矩阵向量相乘。
公式(4)在反向传播上也具有很好的特性。假设损失函数为 ,
Eq.4和 Eq.5表明了,在前向和反向阶段,信号都能够直接的从一个单元传递到其他任意一个单元。Eq.4的条件基础是两个恒等映射: (i) 恒等跳跃连接,和 (ii) f 也是一个恒等映射。
这些直接传递的信息流如Fig.1、2及4中灰色箭头所示。当这些灰色箭头不附带任何操作(除了相加),也就是“clean” 时,以上两个条件是成立的。在接下来两部分中,我们会分别研究这两个条件的作用。
4. On the Importance of Identity Skip Connections
对恒等映射做一些简单的调整:
则
则:
对于一个极深的网络(L 很大),如果对于所有的i都有 ,那么这个因子将会是指数型的放大;如果 ,那么这个因子将会是指数型的缩小或者是消失,从而阻断从捷径反向传来的信号,并迫使它流向权重层。我们通过实验证明了这将对优化造成困难。
不同shortcut的比较
讨论:
值得注意的是,门控和1×1卷积快捷方式引入了更多的参数,应该比身份快捷方式具有更强的代表性能力。事实上,只有捷径门和1×1卷积覆盖了身份捷径的解决空间。,它们可以优化为身份快捷方式)。但其训练误差高于身份捷径,说明这些模型的退化是由优化问题引起的,而不是表征能力。
5. On the Usage of Activation Functions
不同**函数的比较
恒等映射越干净越好,所以除了加,把**函数都放在残差计算里
我们发现预**的影响具有两个方面。第一,由于f也是恒等映射,优化变得更加简单(与原始ResNet相比)。第二,在预**中使用BN能够提高模型的正则化,提高了泛化能力。