一、梯度消失与爆炸

1.1 梯度

第四周、梯度，损失函数和优化器
从上图可知，每一网络层输出不能太大或太小，否则会导致梯度爆炸或者梯度消失

对权重W进行处理，使其方差为1/n，则隐藏输出的方差也为1，这样使得经过累乘，依然保持到一个很小的数

第四周、梯度，损失函数和优化器
方差一致性: 保持数据尺度维持在恰当范围,通常方差为1
**函数: 饱和函数, 如Sigmoid, Tanh

第四周、梯度，损失函数和优化器
方差一致性:保持数据尺度维持在恰当范围,通常方差为1
**函数: ReLU及其变种

第四周、梯度，损失函数和优化器

第四周、梯度，损失函数和优化器

第四周、梯度，损失函数和优化器

第四周、梯度，损失函数和优化器

第四周、梯度，损失函数和优化器

zero_grad()
说明：

第四周、梯度，损失函数和优化器