**函数简介

**函数简介

本文意在干脆地写明白**函数的优缺点

sigmoid **函数

Sigmoid : σ(x)=11+ex\sigma (x) = \frac{1}{{1 + e^{ - x} }}
**函数简介

优点

  1. 将变量映射到 [0,1]
  2. Logistic函数的特例
  3. 可用于二分类
  4. 因可解释为神经元的饱和激发率(firing rate) ,历史上比较流行

问题

  1. 饱和神经元会“kill” 梯度(引起梯度消失)
  2. Sigmoid输出不是零中心的
  3. exp() 运算导致计算较复杂

tanh**函数

tanh : f(x)=exexex+exf(x) = \frac{{e^x - e^{ - x} }}{{e^x + e^{ - x} }}

**函数简介

优点

  1. 将变量映射到 [-1,1]
  2. 输出零中心

问题

  1. 饱和神经元仍然会“kill” 梯度

ReLu**函数

ReLu : f(x)=max(0,x)f(x) = \max (0,x)

**函数简介

优点

  1. 在???? > 0时保持梯度不衰减,从而缓解梯度消失问题
  2. 计算效率高
  3. 实际应用中比sigmoid/tanh收敛速度快很多

问题

  1. 输出非零中心
  2. ???? < 0无梯度,会导致权重无法更新

Leaky ReLu**函数

Leaky ReLu : f(x)=max(0.01x,x)f(x) = \max (0.01x,x)

**函数简介

优点

  1. 避免ReLU可能出现的神经元“死亡”现象

Softmax**函数

  1. Softmax是一种特殊的**函数,其输出总和为1
  2. 利用Softmax函数将线性预测值转换为多类别对应的概率

Softmax : σi(x)=exp(xi)jNexp(xj)\sigma _i (x) = \frac{{\exp (x_i )}}{{\sum\nolimits_j^N {\exp (x_j )} }}

Softmax其实就是先对每一个xix_i 取指数变成非负,然后除以所有项之和进行归一化
值得一提的此方法与交叉熵的结合,损失函数简介

---------------------------------------------------------以下是更新的经验-------------------------------------------------------------