深度学习课堂笔记

基于动量的梯度下降

深度学习课堂笔记 5.18 二者区别在于，Nesterov会先更新一次参数

学习率是难以设置的超参数。动量算法可以一定程度地缓解该问题，但又引入了另一个超参。

AdaGrad算法
深度学习课堂笔记 5.18 学习率逐次下降。从训练开始时积累梯度平方导致学习率过早变小

RMSProp算法
深度学习课堂笔记 5.18 累积梯度平方时做了指数加权平滑

Adam算法
深度学习课堂笔记 5.18 结合了Momentum和RMSProp的优点

参数：w和b
超参数：学习率迭代次数隐层数目单元数
**函数批量大小优化器优化器参数

优化方法：1、遍历法计算量大
2、随机法

单个超参数值的选择方法：
1、均匀法
2、对数法

训练方式：
1、熊猫法：像国宝一样训练：发现错误及时调整
2、鱼子酱：计算资源丰富：疯狂训练，选最好的模型

数据集：
1、训练集应该包含问题域中所有的数据
2、测试集：测试网络对训练集中未出现的数据的分类性能
3、验证集

预处理：
1、去噪降维删除无关数据
2、数据平衡化对于标签，样本应尽可能均匀
3、平衡化方法：
移除过度富余分类中的数据，补充样例稀少的分类中的数据
复制一部分稀少分类中的数据，并加入随机噪声

表示学习的能力，实现端到端的学习，把特征学习和分类器结合起来。CNN本质是一种输入到输出的映射，它能够学习大量的输入与输出的映射关系，而不需要任何输入和输出的数学表达式
成功原因：
1、逐层处理
2、内部的特征变换
3、足够的模型复杂度
4、大数据
5、强大的算力