Distilling the Knowledge in a Neural Network[论文阅读笔记]
实验部分
初步试验 Mnist数据集
训练一个有两层具有1200个单元的隐藏层的大型网络(使用dropout和weight-constraints作为正则)值得注意的一点是dropout可以看做是share weights 的ensemble models
另外一个小一点的网络具有两层800个单元隐藏层没有正则
结果是第一个网络test error 67个,第二个是146个;再加入soft target并且T设置为20之后小型网络test error达到74个
另外需要注意一点的是:
When the distilled net had 300 or more units in each of its two hidden layers, all temperatures above 8 gave fairly similar results. But when this was radically reduced to 30 units per layer, temperatures in the range 2.5 to 4 worked significantly better than higher or lower temperatures.
该现象可能说明将概率设置的过于soften可能会导致一些问题尤其是在拟合能力较差的网络中
另外的重要发现
- 遗漏数据集所有的数字3做训练后,distilled model只有206个test error只有206 其中133是对3的辨识错误(测试集中3有1010个),很多错误是bias过低导致(?)到bias增加到3.5时distilled model 给了109个error,其中14个是3
- 训练集只有7和8时,distilled model有47.3%的测试错误,到bias降低7.6时优化了,降低了13.2%测试错误。
- 一个问题:这样手动修正bias增加正确率是否有普适的意义
剩下的就是在语音数据及的实验以及大型数据及JFT的实验。具体可以参考原文。