《吴恩达深度学习》02改善深层神经网络:超参数调优、正则化以及优化(第2周优化算法)
02. 改善深层神经网络:超参数调优、正则化以及优化
第二周 优化算法
2.1 Mini-Batch 梯度下降法
- Batch 与 mini-batch 梯度下降
(1) 向量化能够高效地处理m个样本
(2) 将原有大规模数据集切割为同等大小的若干小规模子集,构成mini-batch - mini-batch 梯度下降法
2.2 理解mini-batch 梯度下降法
- mini-batch梯度下降训练
(1) Batch梯度下降与Mini-batch梯度下降对比 - 选择Mini-batch规模
(1) 若规模为m(原数据集规模),则为Batch梯度下降
(2) 若规模为1,则为随机梯度下降(缺点:失去向量化带来的加速)
2.3 指数加权平均
- 举例:伦敦气温
- 指数加权平均
2.4 理解指数加权平均
- 指数加权平均公式
举例:
2.5 指数加权平均的偏差修正
-
偏差修正
红色线:
绿色线:预期线
紫色线:实际线 -
为了精确估计,尤其是在初期,用代替
2.6 动量梯度下降法
- 梯度下降法举例
波动的学习进程导致学习效率降低 - 动量法
在第t代中:
计算,在相应的mini-batch上
- 实现细节
常用值为0.9
2.7 RMSprop
- RMSprop:root mean square prop
在第t代中:
计算和在相应mini-batch上
实践中,通常在根号内加一个很小的数值,如,以防除以非常小的数。
2.8 Adam优化算法
- Adam优化算法
初始化:
在第t代中:
计算在相应的mini-batch上
- 超参选择
:需要进行调试
:0.9
:0.999
:
2.9 学习率衰减
- 学习率衰减
避免在学习后期步幅较大,导致在最优值附近震荡 - 学习率衰减
- 其他学习率衰减方法
2.10 局部优化的问题
- 神经网络中的局部最优值
(1)示意图
(2)鞍点
(3)从低维空间得到的直觉,不能直接用到高维空间。 - 平稳段的问题
(1)梯度接近0,学习速率降低。
(2)解决方法:动量法,RMSprop