第四周--Googlenet-v2

1：文字回答：Batch Normalization 层中的加减乘除是什么意思？

答：减均值除以标准差乘以权重加上偏置。
第四周--Googlenet-v2

2：文字回答：Batch Normalization 层中均值和标准差通过什么方式得到？

答：训练时，均值、方差分别是该批次内数据相应维度的均值与方差；
推理时，均值、方差是基于所有批次的期望计算所得。
Standardization：首先对m个x进行 Standardization，得到 zero mean unit variance的分布x。scale and shift：然后再对x^进行scale and shift，缩放并平移到新的分布y，具有新的均值β方差γ。假设BN层有d个输入节点，则x可构成d×m大小的矩阵X，BN层相当于通过行操作将其映射为另一个d×m大小的矩阵Y。
μ和σ为当前行的统计量，不可学习。
γ和β为待学习的scale和shift参数，用于控制yi的方差和均值。
BN层中，xi和xj之间不存在信息交流(i≠j)

3：文字回答：采用Batch Normalization 对神经网络带来怎样的收益？

答：由于深层神经网络在做非线性变换前的**输入值（X=Wu+b，u是输入）随着神经网络深度的加深或者在训练过程中，其输入数据分布逐渐发生偏移或者变动，使得训练收敛速度变慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近，导致在反向传播时低层神经网络的梯度消失，这是训练深层神经网络收敛越来越慢的本质原因。而BN就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，其实就是把越来越偏的分布强制拉回比较标准的分布，这样使得**输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，意思是这样让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度。

4：文字回答：读完该论文，对你的启发点有哪些？

答：借鉴VGG，全面将55卷积替换为两个33卷积堆叠；卷积层的BN中，不仅考虑batch维度，还考虑空间维度，以feature map维度进行求取均值，方差；0均值，1标准差的数据分布可加速网络训练；可以用更大学习率，加速模型收敛；可以不用精心设计权值初始化。

5：文字：本篇论文的学习笔记及总结

答：第四周--Googlenet-v2