优化篇-【**函数】

【**函数】

1.什么是**函数

1.1 什么是**函数

  • 将输入映射为一个特定分布的输出,完成非线性变换

优化篇-【**函数】

2. 为什么需要**函数

2.1.大脑的生物机制

优化篇-【**函数】

2.2 网络的表达能力

  • 神经元模型

yj=bj+ixiwjiz=b+jyjwj=b+j(bj+ixiwji)wj=b+j(bjwj)+i(jxiwjiwj) y_{j}=b_{j}+\sum_{i} x_{i} w_{j i}\\ z=b^{\prime}+\sum_{j} y_{j} w_{j}^{\prime}=b^{\prime}+\sum_{j}\left(b_{j}+\sum_{i} x_{i} w_{j i}\right) w_{j}^{\prime}=b^{\prime}+\sum_{j}\left(b_{j} w_{j}^{\prime}\right)+\sum_{i}\left(\sum_{j} x_{i} w_{j i} w_{j}^{\prime}\right)

增加一层后表达还是线性的

  • 线\color{Red}没有**函数就没有非线性表达能力​

3.**函数的发展

3.1 **函数种类

3.2 sigmoid 和 tanh **函数

sigmoid(x)=11+extanh(x)=exexex+ex sigmoid(x)=\frac{1}{1+e^{-x}}\\ \tanh (\mathrm{x})=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}

优化篇-【**函数】

3.2.1.sigmoid 函数优缺点:

  • 优点——输出0—1,映射平滑适合预测概率,但是没有复值**
  • 缺点——不过零点,\color{Red}梯度消失​

3.2.2tanh函数优缺点:

  • 优点——映射(-1,1)之间,过零点,值域更大
  • 缺点——\color{Red}梯度消失​

3.3 ReLu**函数

  • f(x)=max0,xf(x)= max (0,x)

优点——计算简单,导数恒定,拥有稀疏性

缺点——没有负**值

3.4 Relu**函数的改进

  • **函数负值输入,未证明全面比ReLu提升

优化篇-【**函数】

3.5Maxout函数

  • 从多个输入中取最大值,求导非常简单,只在最大值得一路有梯度

maxak=max(w1Tx+b1,w2Tx+b2,,wnTx+bn) \max a_{k}=\max \left(w_{1}^{T} x+b_{1}, w_{2}^{T} x+b_{2}, \ldots, w_{n}^{T} x+b_{n}\right)

  • 优点——拟合能力非常强
  • 缺点——计算量增加,增加了K个神经元

4. 总结与展望

4.1.**函数从人工设计到自动学习

Swish函数——xsigmoid(βx)x \cdot sigmoid(\beta x)