百度“飞浆“学习笔记
百度"飞浆"学习笔记
注:以下全是自己的理解,有错误希望大佬指出,谢谢!
第一章作业
1-2:
1. 样本归一化:预测时的样本数据同样也需要归一化,但使用训练样本的均值和极值计算,这是为什么?
答:建立模型使用的是训练样本的均值和极值归一化的样本,预测样本需要采用相同的归一化参数
2. 当部分参数的梯度计算为0(接近0)时,可能是什么情况?是否意味着完成训练?
答:当部分参数梯度计算接近0时,表明这些参数达到最优,后续更新梯度时,只选择其他参数的梯度取平均值进行迭代,直到所有参数梯度接近0时,完成训练。
1-3
1. 随机梯度下降的batchsize设置成多少合适?过小有什么问题?过大有什么问题?提示:过大以整个样本集合为例,过小以单个样本为例来思考。
答:过小:每次迭代梯度下降方向变化大,Loss曲线震荡剧烈,难以收敛
过大:梯度下降方向变化小,容易陷入局部最优解
2. 一次训练使用的配置:5个epoch,1000个样本,batchsize=20,最内层循环执行多少轮?
答:5 * 1000/20 = 250
Ps:可惜打卡题目做错了
1-4
根据乘法和加法的导数公式,完成购买苹果和橘子的梯度传播的题目。