深度学习课堂笔记 5.18
深度学习课堂笔记
基于动量的梯度下降
二者区别在于,Nesterov会先更新一次参数
自适应学习率算法
学习率是难以设置的超参数。动量算法可以一定程度地缓解该问题,但又引入了另一个超参。
AdaGrad算法学习率逐次下降。从训练开始时积累梯度平方导致学习率过早变小
RMSProp算法累积梯度平方时做了指数加权平滑
Adam算法结合了Momentum和RMSProp的优点
深度学习中的调参
参数:w和b
超参数:学习率 迭代次数 隐层数目 单元数
**函数 批量大小 优化器 优化器参数
优化方法:1、遍历法 计算量大
2、随机法
单个超参数值的选择方法:
1、均匀法
2、对数法
训练方式:
1、熊猫法:像国宝一样训练:发现错误及时调整
2、鱼子酱:计算资源丰富:疯狂训练,选最好的模型
数据集:
1、训练集应该包含问题域中所有的数据
2、测试集:测试网络对训练集中未出现的数据的分类性能
3、验证集
预处理:
1、去噪 降维 删除无关数据
2、数据平衡化 对于标签,样本应尽可能均匀
3、平衡化方法:
移除过度富余分类中的数据,补充样例稀少的分类中的数据
复制一部分稀少分类中的数据,并加入随机噪声
深度神经网络的本质到底是什么?
表示学习的能力,实现端到端的学习,把特征学习和分类器结合起来。CNN本质是一种输入到输出的映射,它能够学习大量的输入与输出的映射关系,而不需要任何输入和输出的数学表达式
成功原因:
1、逐层处理
2、内部的特征变换
3、足够的模型复杂度
4、大数据
5、强大的算力