论文题目：《Identity Mappings in Deep Residual Networks》
论文地址：https://arxiv.org/abs/1603.05027
发表时间：2016 ECCV
开源代码：https://github.com/KaimingHe/ resnet-1k-layers

1. Abstract

分析了残差模块的传播方式，能过解释为什么使用恒等映射（identity mapping）作为跳跃连接和加和的**项，能使得前向和反向的信号能直接在模块之间传播。并且通过一系列的消融实验来证明恒等映射的重要性。

2 Introduction

论文阅读之identity mapping
上图的残差模块的通式可写成：

其中 $h(x)$ 是恒等映射， $h(x_l)=x_l$
$F(x)$ 是残差方程
$f(x)$ 是ReLU**函数

ResNet 的central idea 是使用恒等映射 $h(x_l)=x_l$ ，来学习一个关于 $h(x_l)$ 的可加性残差函数 $F$ 。

In this paper, we analyze deep residual networks by focusing on creating a “direct” path for propagating information — not only within a residual unit, but through the entire network. 作者的推导展示了，如果 $h(x_l)和f(y_l)$ 都是恒等映射，无论是前向还是反向传播，信号都会直接一个单元直接传递到任一其他单元，使得训练变得简单。
论文阅读之identity mapping

为了了解跳跃连接的作用，分析和比较了 $h(x_l)$ 的各种类型。我们发现了He[2016]中使用的恒等映射 $h(x_l)=x_l$ 在我们所有研究的类型中，误差衰减最快，训练误差最低，而使用缩放、门控以及1×1 卷积的跳跃连接都产生了很高的训练损失和误差。这些实验表明，一个“干净”的信息通路对于简化优化是很有帮助的。

为了构建恒等映射 $f(y_l) = y_l$ ，使用了BN和ReLU作为weight layer的预**处理。

3. Analysis of Deep Residual Networks

论文阅读之identity mapping
由第四个公式可以得到的一些的特性;

对于任意深层的特征 $L$ ，都可通过任意浅层的特征 $l$ 加上残差 $\sum^{L-1}_{i=l}F$ 表示。
对于特征 $X_l = x_0+ \sum^{L-1}_{i=0}F(x_i, W_i)$ 为所有残差的和加上 $x_0$ , 而plain network为所有层的矩阵向量相乘。
公式（4）在反向传播上也具有很好的特性。假设损失函数为 $\varepsilon$ ,

Eq.4和 Eq.5表明了，在前向和反向阶段，信号都能够直接的从一个单元传递到其他任意一个单元。Eq.4的条件基础是两个恒等映射： (i) 恒等跳跃连接 $h(x_l)=x_l$ ，和 (ii) f 也是一个恒等映射。

这些直接传递的信息流如Fig.1、2及4中灰色箭头所示。当这些灰色箭头不附带任何操作(除了相加)，也就是“clean” 时，以上两个条件是成立的。在接下来两部分中，我们会分别研究这两个条件的作用。

4. On the Importance of Identity Skip Connections

对恒等映射做一些简单的调整： $h(x_l) = \lambda_l x_l$
则 $x_{l+1} = \lambda_l x_l +F(x_l, W)$
则：
论文阅读之identity mapping

论文阅读之identity mapping

对于一个极深的网络(L 很大)，如果对于所有的i都有 $λi>1$ ，那么这个因子将会是指数型的放大；如果 $λi<1$ ，那么这个因子将会是指数型的缩小或者是消失，从而阻断从捷径反向传来的信号，并迫使它流向权重层。我们通过实验证明了这将对优化造成困难。

不同shortcut的比较
论文阅读之identity mapping
讨论：
值得注意的是，门控和1×1卷积快捷方式引入了更多的参数，应该比身份快捷方式具有更强的代表性能力。事实上，只有捷径门和1×1卷积覆盖了身份捷径的解决空间。，它们可以优化为身份快捷方式)。但其训练误差高于身份捷径，说明这些模型的退化是由优化问题引起的，而不是表征能力。

5. On the Usage of Activation Functions

不同**函数的比较
论文阅读之identity mapping

恒等映射越干净越好，所以除了加，把**函数都放在残差计算里
论文阅读之identity mapping

我们发现预**的影响具有两个方面。第一，由于f也是恒等映射，优化变得更加简单(与原始ResNet相比)。第二，在预**中使用BN能够提高模型的正则化，提高了泛化能力。

论文阅读之identity mapping

论文阅读之identity mapping

1. Abstract

2 Introduction

3. Analysis of Deep Residual Networks

4. On the Importance of Identity Skip Connections

5. On the Usage of Activation Functions

相关推荐