Neural Networks techniques' brief analysis(continuous updating)
个人笔记 感谢指正
BatchNormalization
原理 :
Normalize the activations of the previous layer at each batch,i.e. applies a transformation that maintains the mean activation close to 0 and the activation standard deviation close to 1
作用:
解决神经网络中出现的梯度爆炸和梯度消失的作用
residual
原理:
如果把网络设计为H(x) = F(x) + x,即直接把恒等映射作为网络的一部分。就可以把问题转化为学习一个残差函数F(x) = H(x) - x.只要F(x)=0,就构成了一个恒等映射H(x) = x。 而且,拟合残差至少比拟合恒等映射容易得多
作用:
神经网络越来越深的时候,反传回来的梯度之间的相关性会越来越差,最后接近白噪声。因为我们知道图像是具备局部相关性的,那其实可以认为梯度也应该具备类似的相关性,这样更新的梯度才有意义,如果梯度接近白噪声,那梯度更新可能根本就是在做随机扰动。有了梯度相关性这个指标之后,作者分析了一系列的结构和**函数,发现resnet在保持梯度相关性方面很优秀(相关性衰减从到了 )。这一点其实也很好理解,从梯度流来看,有一路梯度是保持原样不动地往回传,这部分的相关性是非常强的.