深度学习初步，全连接神经网络，MLP从原理到实现（二）原理部分，过拟合，**函数，batchsize和epochs，训练DL模型的建议

其他两篇：

深度学习初步，全连接神经网络，MLP从原理到实现（一）原理部分，反向传播详细解释和实际计算例子

深度学习初步，全连接神经网络，MLP从原理到实现（三）实现部分，用java实现MLP

1.**函数

（1）Sigmoid

深度学习初步，全连接神经网络，MLP从原理到实现（二）原理部分，过拟合，**函数，batchsize和epochs，训练DL模型的建议

Sigmoid将所有输入压缩到0到1之间，这样造成的问题是，当随着神经网络的层次加深时，特征的变化由于sigmoid而慢慢衰减。这样会造成靠近输入层的梯度很小。

（2）ReLU

深度学习初步，全连接神经网络，MLP从原理到实现（二）原理部分，过拟合，**函数，batchsize和epochs，训练DL模型的建议

普通类型的ReLU

ReLU是现在DL流行使用的**函数，有一些变种。

ReLU实际上是一种线性的函数，

在z<0,σ(z) = 0

在z>0,σ(z) = z

深度学习初步，全连接神经网络，MLP从原理到实现（二）原理部分，过拟合，**函数，batchsize和epochs，训练DL模型的建议

（3）MaxOut

MaxOut可以自适应的训练出**函数。

将每层的神经元分组，在组内选择最大的z值作为下一层的输入，例如：

深度学习初步，全连接神经网络，MLP从原理到实现（二）原理部分，过拟合，**函数，batchsize和epochs，训练DL模型的建议

这样可以产生不同的**函数：

深度学习初步，全连接神经网络，MLP从原理到实现（二）原理部分，过拟合，**函数，batchsize和epochs，训练DL模型的建议

组内神经元数不同的效果：

深度学习初步，全连接神经网络，MLP从原理到实现（二）原理部分，过拟合，**函数，batchsize和epochs，训练DL模型的建议

怎么计算梯度呢？

因为取max操作是针对特定样本，比如：

深度学习初步，全连接神经网络，MLP从原理到实现（二）原理部分，过拟合，**函数，batchsize和epochs，训练DL模型的建议

深度学习初步，全连接神经网络，MLP从原理到实现（二）原理部分，过拟合，**函数，batchsize和epochs，训练DL模型的建议被选中为最大，那么其对应的**函数就是线性的，会更新对应的权重，输入不同的样本，可能选中不同的z，深度学习初步，全连接神经网络，MLP从原理到实现（二）原理部分，过拟合，**函数，batchsize和epochs，训练DL模型的建议也可能会被选中更新参数。

还有其他类型的**函数，可以自己查询。

2.batch size 和 epochs

batch size的来源：将样本分批，每一批样本用来优化损失函数，这其实就是批量梯度下降，分批最好随机。。比如样本有10000个，batch size = 100，那么分批为100批，优化时需要做100次参数更新。

epochs:将样本分批后，一次epoch就是用完所有批次的样本用来梯度下降。例如：样本10000，batch size = 100，epochs = 10，每一个epoch参数更新100次，共10个epoch。

考虑下面的情况：

样本10000：

batch size = 1，每一个epoch梯度下降10000次，更新10000次参数
batch size = 10，每一个epoch梯度下降1000次，更新1000次参数

因为单次更新参数，计算梯度时可以并行（大量的矩阵运算可以用gpu并行）的，（2）的bach size更大更利于并行，单次epoch快于（1），但是batch size有限制，太大会占用很多内存。另外如果batch size调的太大，那么此时就直接优化比较多样本的损失（越大越接近总损失），这样容易陷入局部最小值，而batch size小一些就成了批量梯度下降，这样下降时会具有一定的随机性，有利于跳出局部最小。