CV学习（二）：网络优化之七个常见**函数介绍

网络优化之**函数介绍

**函数：神经网络的信号经过非线性的**函数传递。正是由于非线性函数的反复叠加，才使得神经网络有足够的非线性拟合能力。选择不同的**函数会影响整个深度神经网络。

公式
CV学习（二）：网络优化之七个常见**函数介绍
函数图像

Sigmoid是传统神经网络使用频率最高的函数它平滑，便于求导。旦易出现梯度消失的问题。
函数输出不是0中心【输出值恒大于0】，这会使得模型训练的收敛速度变慢，且使用的是幂运算，也比较耗时。

公式：
CV学习（二）：网络优化之七个常见**函数介绍
图像

Tanh函数解决了非0中心问题，但是梯度消失和幂运算的问题仍然存在

解释一下为什么非0中心函数会使得网络收敛变慢，简单来说的话非0中心的**函数会使得返回的权值梯度都是同一符号的，即所有的权值都只能往一个方向移动，所以会需要更多的迭代次数。详细的话可以看这篇博客

公式： f(x)=max{0,x}
图像：
CV学习（二）：网络优化之七个常见**函数介绍

ReLU非全区间可导，但计算过程中可以取子梯度
ReLU在正区间内解决了梯度消失的问题。而且只需要判断是否大于零即可，计算速度快，收敛快。但是ReLU仍不是0中心函数，且存在Dead ReLU Problem
Dead ReLU Problem：即某些神经元可能永远不会参与计算，从而无法更新权值。产生的原因：可能由于参数初始化及学习率太高导致训练时参数更新过大，网络会进入这种状态
解决方法是采用Xavier初始化方法；学习率避免设置太大或使用adagrad等自动调节学习率的方法。