直播 | 旷视研究院最新理论成果:批归一化和权重衰减的球面优化机制
一直以来,批归一化(Batch Normalization,BN)和权重衰减(weight decay,WD)都以其出色稳定的表现成为了当今各种深度学习模型的标准配置,但它们的理论机制却仅有模糊的定性分析。为此旷视研究院针对该问题进行了深度研究并取得重要成果,相关论文成果已经发布至 arXiv。
论文地址:https://arxiv.org/pdf/2006.08419.pdf
在本次直播分享中,PaperWeekly 邀请到旷视研究院基础模型组算法研究员万若斯,为大家带来「批归一化和权重衰减的球面优化机制」的主题分享,欢迎大家准时收看。
直播时间 & 地址
直播时间:7 月 9 日(周四)晚 7 点
直播地点:https://live.bilibili.com/14884511
分享提纲
本报告将介绍旷视研究院最新理论研究成果「在 BN 和 WD 对深度神经网络的训练过程的共同作用的球面优化机制」(Spherical Motion Dynamics, SMD)。值得注意的是,基于球面优化机制的定量理论结果,不受限于模型的结构、数据集或任务类型,可以在诸如 ImageNet、COCO 等基于真实数据的复杂计算机视觉任务上得到完美验证。
本次分享的具体内容有:
BN与WD的背景
BN的表达方式与放缩不变性
BN和WD对损失函数的地形的影响
BN和WD的球面优化机制
球面优化机制的推导
球面优化机制的部分性质
实验结果
在不同模型、数据集、计算机视觉任务上验证球面优化机制
讨论球面优化机制对调参的影响
结论
嘉宾介绍
万若斯 / 旷视研究院算法研究员
万若斯,现为旷视研究院基础模型组的算法研究员。在北京大学数学科学学院取得应用数学学士学位,并在北京大学前沿交叉学院获得数据科学硕士学位。主要研究方向是深度学习模型与训练方法的理论基础。
传送门
实习生简历投通道请点击→这里
欢迎大家关注如下 旷视研究院 官方微信号????