《SWALP:Stochastic Weight Averaging in Low-Precision Training》
摘要:这种方式可以使得所有数字均量化至8-bit,同时表示为SWALP任意收敛于二次目标的最优解,在强凸条件下使噪声球渐近小于低精度SGD。
SWALP的处理将梯度累加模块也变为8-bit
(Stochastic Weight Averaging)SWA的介绍:
https://blog.****.net/leviopku/article/details/84037946
多次求平均值,SWA的方式可以采用高学习率以及忽略噪声。对比对象:全精度SGD
做出以下贡献:
1.一种方法对包括梯度累加部分在内的所有数均采用量化的方式。
2.证明了SWALP低精度收敛比低精度SGD小
3.在VGG16和PreResNet-164上对CIFAR-10和CIFAR100做结果证明
量化方法:
还是传统的BFP的格式
算法:
上述只是对梯度累加做量化,下面对所有参与的数都做量化。