论文笔记：Deep Residual Learning

转处：https://www.cnblogs.com/jermmyhsu/p/8228007.html

之前提到，深度神经网络在训练中容易遇到梯度消失/爆炸的问题，这个问题产生的根源详见之前的读书笔记。在 Batch Normalization 中，我们将输入数据由**函数的收敛区调整到梯度较大的区域，在一定程度上缓解了这种问题。不过，当网络的层数急剧增加时，BP 算法中导数的累乘效应还是很容易让梯度慢慢减小直至消失。这篇文章中介绍的深度残差 (Deep Residual) 学习网络可以说根治了这种问题。下面我按照自己的理解浅浅地水一下 Deep Residual Learning 的基本思想，并简单介绍一下深度残差网络的结构。

基本思想

回到最开始的问题，为什么深度神经网络会难以训练？根源在于 BP 的时候我们需要逐层计算导数并将这些导数相乘。这些导数如果太小，梯度就容易消失，反之，则会爆炸。我们没法从 BP 算法的角度出发让这个相乘的导数链消失，因此，可行的方法就是控制每个导数的值，让它们尽量靠近 1，这样，连乘后的结果不会太小，也不会太大。

现在，我们就从导数入手，看看如何实现上面的要求。由于梯度消失的问题比梯度爆炸更常见，因此只针对梯度消失这一点进行改进。

假设我们理想中想让网络学习出来的函数是 F(x;Wi)F(x;Wi)，但由于它的导数 ∂F∂x∂F∂x 太小，所以训练的时候梯度就消失了。所谓太小，就是说 ∂F∂x≈0∂F∂x≈0，那么，我们何不在这个导数的基础上加上 1 或者减去 1，这样梯度不就变大了吗？（这里的 1 是为了满足之前提到的梯度靠近 1 这一要求，事实上，只要能防止梯度爆炸，其他数值也是可以的，不过作者在之后的实验中证明，1 的效果最好）

按照这种思路，我们现在想构造一个新的函数，让它的导数等于 ∂F∂x+1∂F∂x+1。由这个导数反推回去，很自然地就得到一个我们想要的函数：H(x)=F(x)+xH(x)=F(x)+x，它的导数为：∂H∂x=∂F∂x+1∂H∂x=∂F∂x+1。这个时候你可能会想，如果将原来的 F(x)F(x) 变成 H(x)H(x)，那网络想要提取的特征不就不正确了吗，这个网络还有什么用？不错，我们想要的最终函数是 F(x;Wi)F(x;Wi)，这个时候再加个 xx 上去，结果肯定不是我们想要的。但是，为什么一定要让网络学出 F(x;Wi)F(x;Wi)？为什么不用 H(x)H(x) 替换原本的 F(x;Wi)F(x;Wi)，而将网络学习的目标调整为：F(x)=H(x)−xF(x)=H(x)−x？要知道，神经网络是可以近似任何函数的，只要让网络学出这个新的 F(x)F(x)，那么我们自然也就可以通过 H(x)=F(x)+xH(x)=F(x)+x 得到最终想要的函数形式。作者认为，通过这种方式学习得到的 H(x)H(x)函数，跟当初直接让网络学习出的 F(x,Wi)F(x,Wi)，效果上是等价的，但前者却更容易训练。

==================== UPDATE 2018.1.23 =====================

时隔几个月重新看这篇文章，发现当初的理解存在一个巨大的问题，在此，对那些被我误导的同学深深道歉

论文笔记：Deep Residual Learning

基本思想

相关推荐