论文阅读之identity mapping

论文题目:《Identity Mappings in Deep Residual Networks》
论文地址:https://arxiv.org/abs/1603.05027
发表时间:2016 ECCV
开源代码:https://github.com/KaimingHe/ resnet-1k-layers

1. Abstract

分析了残差模块的传播方式,能过解释为什么使用恒等映射(identity mapping)作为跳跃连接和加和的**项,能使得前向和反向的信号能直接在模块之间传播。并且通过一系列的消融实验来证明恒等映射的重要性。

2 Introduction

论文阅读之identity mapping
上图的残差模块的通式可写成:
论文阅读之identity mapping

  • 其中h(x)h(x)是恒等映射, h(xl)=xlh(x_l)=x_l
  • F(x)F(x)是残差方程
  • f(x)f(x)是ReLU**函数

ResNet 的central idea 是使用恒等映射h(xl)=xlh(x_l)=x_l,来学习一个关于h(xl)h(x_l)的可加性残差函数FF

In this paper, we analyze deep residual networks by focusing on creating a “direct” path for propagating information — not only within a residual unit, but through the entire network. 作者的推导展示了,如果h(xl)f(yl)h(x_l)和f(y_l)都是恒等映射,无论是前向还是反向传播,信号都会直接一个单元直接传递到任一其他单元,使得训练变得简单。
论文阅读之identity mapping

为了了解跳跃连接的作用,分析和比较了h(xl)h(x_l)的各种类型。我们发现了He[2016]中使用的恒等映射h(xl)=xlh(x_l)=x_l 在我们所有研究的类型中,误差衰减最快,训练误差最低,而使用缩放、门控以及1×1 卷积的跳跃连接都产生了很高的训练损失和误差。这些实验表明,一个“干净”的信息通路 对于简化优化是很有帮助的。

为了构建恒等映射f(yl)=ylf(y_l) = y_l, 使用了BN和ReLU作为weight layer的预**处理。

3. Analysis of Deep Residual Networks

论文阅读之identity mapping
由第四个公式可以得到的一些的特性;

  1. 对于任意深层的特征 LL,都可通过任意浅层的特征 ll 加上残差i=lL1F\sum^{L-1}_{i=l}F表示。
  2. 对于特征Xl=x0+i=0L1F(xi,Wi)X_l = x_0+ \sum^{L-1}_{i=0}F(x_i, W_i) 为所有残差的和加上x0x_0, 而plain network为所有层的矩阵向量相乘。
    公式(4)在反向传播上也具有很好的特性。假设损失函数为 ε\varepsilon,
    论文阅读之identity mapping
    论文阅读之identity mapping

Eq.4和 Eq.5表明了,在前向和反向阶段,信号都能够直接的从一个单元传递到其他任意一个单元。Eq.4的条件基础是两个恒等映射: (i) 恒等跳跃连接h(xl)=xlh(x_l)=x_l,和 (ii) f 也是一个恒等映射。

这些直接传递的信息流如Fig.1、2及4中灰色箭头所示。当这些灰色箭头不附带任何操作(除了相加),也就是“clean” 时,以上两个条件是成立的。在接下来两部分中,我们会分别研究这两个条件的作用。

4. On the Importance of Identity Skip Connections

对恒等映射做一些简单的调整:h(xl)=λlxlh(x_l) = \lambda_l x_l
xl+1=λlxl+F(xl,W)x_{l+1} = \lambda_l x_l +F(x_l, W)
则:
论文阅读之identity mapping

论文阅读之identity mapping

对于一个极深的网络(L 很大),如果对于所有的i都有 λi>1λi>1,那么这个因子将会是指数型的放大;如果λi<1λi<1 ,那么这个因子将会是指数型的缩小或者是消失,从而阻断从捷径反向传来的信号,并迫使它流向权重层。我们通过实验证明了这将对优化造成困难。

不同shortcut的比较
论文阅读之identity mapping
讨论:
值得注意的是,门控和1×1卷积快捷方式引入了更多的参数,应该比身份快捷方式具有更强的代表性能力。事实上,只有捷径门和1×1卷积覆盖了身份捷径的解决空间。,它们可以优化为身份快捷方式)。但其训练误差高于身份捷径,说明这些模型的退化是由优化问题引起的,而不是表征能力。

5. On the Usage of Activation Functions

不同**函数的比较
论文阅读之identity mapping

恒等映射越干净越好,所以除了加,把**函数都放在残差计算里
论文阅读之identity mapping

我们发现预**的影响具有两个方面。第一,由于f也是恒等映射,优化变得更加简单(与原始ResNet相比)。第二,在预**中使用BN能够提高模型的正则化,提高了泛化能力。

论文阅读之identity mapping