第四周--Googlenet-v2
1:文字回答:Batch Normalization 层中的加减乘除是什么意思?
答:减均值除以标准差乘以权重加上偏置。
2:文字回答:Batch Normalization 层中均值和标准差通过什么方式得到?
答:训练时,均值、方差分别是该批次内数据相应维度的均值与方差;
推理时,均值、方差是基于所有批次的期望计算所得。
Standardization:首先对m个x进行 Standardization,得到 zero mean unit variance的分布x。scale and shift:然后再对x^进行scale and shift,缩放并平移到新的分布y,具有新的均值β方差γ。假设BN层有d个输入节点,则x可构成d×m大小的矩阵X,BN层相当于通过行操作将其映射为另一个d×m大小的矩阵Y。
μ和σ为当前行的统计量,不可学习。
γ和β为待学习的scale和shift参数,用于控制yi的方差和均值。
BN层中,xi和xj之间不存在信息交流(i≠j)
3:文字回答:采用Batch Normalization 对神经网络带来怎样的收益?
答:由于深层神经网络在做非线性变换前的**输入值(X=Wu+b,u是输入)随着神经网络深度的加深或者在训练过程中,其输入数据分布逐渐发生偏移或者变动,使得训练收敛速度变慢,一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近,导致在反向传播时低层神经网络的梯度消失,这是训练深层神经网络收敛越来越慢的本质原因。而BN就是通过一定的规范化手段,把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布,其实就是把越来越偏的分布强制拉回比较标准的分布,这样使得**输入值落在非线性函数对输入比较敏感的区域,这样输入的小变化就会导致损失函数较大的变化,意思是这样让梯度变大,避免梯度消失问题产生,而且梯度变大意味着学习收敛速度快,能大大加快训练速度。
4:文字回答:读完该论文,对你的启发点有哪些?
答:借鉴VGG,全面将55卷积替换为两个33卷积堆叠;卷积层的BN中,不仅考虑batch维度,还考虑空间维度,以feature map维度进行求取均值,方差;0均值,1标准差的数据分布可加速网络训练;可以用更大学习率,加速模型收敛;可以不用精心设计权值初始化。
5:文字:本篇论文的学习笔记及总结
答: