Large-Margin Softmax Loss for Convolutional Neural Networks
论文名称《Large-Margin Softmax Loss for Convolutional Neural Networks》
代码地址:https://github.com/wy1iu/LargeMargin_Softmax_Loss
摘要
大间隔softmax(Large-margin softmax,L-Softmax)使得学习到的特征分布类内高度内聚、类间距离足够大,同时也使得模型具有一定的防止过拟合的能力。提出的损失函数可以使用SGD很容易的进行端到端的训练,实验结果表明了提出的方法可以用于识别的验证任务。
简介
近年来,CNN在计算机视觉类的任务上取得了很好的成绩,取决于以下几点:
- 更深的网络模型,更小的stride,新的非线性**函数;
- 更强的计算能力;
- 大规模的数据集,正则化,数据增广等。
最近的发展趋势是使用CNN学习更好的特征,所谓更好的特征,就是指学习到的特征分布为同一类的特征分布比较聚集而不同类的特征分布之间有比较明显的间隔区域。
对比损失和三元组损失都可以达到上面提到的目的,但是他们的缺点是计算复杂度高,需要构建
最好的解决办法是在最通用的softmax loss的基础上实现上述的目的,这里提到的softmax loss包括了最后的全连接层、softmax函数和交叉熵loss计算部分。但是softmax loss本身并不能达到上述的目的,因此就需要对其进行改变。改变的核心思想就是样本与参数之间的相似度计算可以用余弦距离来衡量,
具体的做法就是引入一个正整数
L-softmax
original softmax loss:
简单示例
假设一个二分类的情况,对于输入的特征向量x正确的类别是1.原始的softmax loss只要
所以
具体定义
m越大,类别之间的间隔越大,
几何意义
好处
- 几何上可解释,m越大,间隔越大;
- m越大,最小化损失函数的难度越大,过拟合的风险越小;
- L-softmax可以和其他的增强网络性能的手段共用。
实验效果
类别数多时,L-softmax 相比 softmax 更难收敛,学习策略是
分类:
一定程度上防止了过拟合:
LFW上人脸验证: