softened softmax vs softmax
如图所示:两者的区别如下:
这样做就可以得到这个概率分布更柔和的表示
实际上可以多个硬指标加上软指标进行训练,然后训练目标会匹配这两种类型的某些功能;
图中谷歌大神说这种方法在一个大的语音模型上做的实验,效果出乎意料的好;从另一个角度来讲,所以软指标是一种相当好的正则化技巧;软指标相比硬指标而言提供了更多的信息,训练速度也快很多,训练时间也要短得多;
如图所示:两者的区别如下:
这样做就可以得到这个概率分布更柔和的表示
实际上可以多个硬指标加上软指标进行训练,然后训练目标会匹配这两种类型的某些功能;
图中谷歌大神说这种方法在一个大的语音模型上做的实验,效果出乎意料的好;从另一个角度来讲,所以软指标是一种相当好的正则化技巧;软指标相比硬指标而言提供了更多的信息,训练速度也快很多,训练时间也要短得多;