Distilling the Knowledge in a Neural Network[论文阅读笔记]

实验部分

初步试验 Mnist数据集

  • 训练一个有两层具有1200个单元的隐藏层的大型网络(使用dropout和weight-constraints作为正则)值得注意的一点是dropout可以看做是share weights 的ensemble models

  • 另外一个小一点的网络具有两层800个单元隐藏层没有正则

结果是第一个网络test error 67个,第二个是146个;再加入soft target并且T设置为20之后小型网络test error达到74个


另外需要注意一点的是:

When the distilled net had 300 or more units in each of its two hidden layers, all temperatures above 8 gave fairly similar results. But when this was radically reduced to 30 units per layer, temperatures in the range 2.5 to 4 worked significantly better than higher or lower temperatures.

 该现象可能说明将概率设置的过于soften可能会导致一些问题尤其是在拟合能力较差的网络中


另外的重要发现

  • 遗漏数据集所有的数字3做训练后,distilled model只有206个test error只有206 其中133是对3的辨识错误(测试集中3有1010个),很多错误是bias过低导致(?)到bias增加到3.5时distilled model 给了109个error,其中14个是3
  • 训练集只有7和8时,distilled model有47.3%的测试错误,到bias降低7.6时优化了,降低了13.2%测试错误。
  • 一个问题:这样手动修正bias增加正确率是否有普适的意义

剩下的就是在语音数据及的实验以及大型数据及JFT的实验。具体可以参考原文。