深度学习相关参数详解

  • 1x1卷积核
  1. 1x1卷积,又称为网中网(Network in Network)
  2. 降维作用,例如NxNxC的输入,经过1x1xC卷积核之后变为NxNx1,例如GoogleNet
  3. 升维作用,在降维的作用基础上2C个1x1卷积核构成NxNx2C的矩阵
  4. 增加非线性特性,在不损失分辨率的前提下大幅增加非线性特性(利用后接的非线性**函数),得到深层网络。
  5. 看作FC层a1...a6a_1...a_6经过一个1x1后得到b1b_1这样
    深度学习相关参数详解
  1. 决定着目标函数能否收敛到局部最小值以及何时收敛到最小值。合适的学习率能够使目标函数在合适的时间内收敛到局部最小值
  2. 学习率设置的过小时,收敛过程将变得十分缓慢。而当学习率设置的过大时,**梯度可能会在最小值附近来回震荡,甚至可能无法收敛。
  3. 好的学习率更快地达到loss的最小值,保证收敛的loss值是神经网络的全局最优解

深度学习相关参数详解
4. 初始学习率一般为0.001~0.1,每n个epoch(每n轮)减半.

  • BN(Batch Normalization)
  1. BN层和卷积层,池化层一样都是一个网络层。
  2. 优点:
    2.1 加快训练速度,以较大的学习率来训练网络
    2.2 提高网络的泛化能力(对新的样本的适应能力)
    2.3 打乱样本的顺序,以免同样的样本一直被训练
    2.4 BN层本质上是一个归一化网络层,可以替代局部响应归一化层(LRN层)
  3. 计算,训练BN层