实验部分

初步试验 Mnist数据集

训练一个有两层具有1200个单元的隐藏层的大型网络（使用dropout和weight-constraints作为正则）值得注意的一点是dropout可以看做是share weights 的ensemble models

另外一个小一点的网络具有两层800个单元隐藏层没有正则

结果是第一个网络test error 67个，第二个是146个；再加入soft target并且T设置为20之后小型网络test error达到74个

另外需要注意一点的是：

When the distilled net had 300 or more units in each of its two hidden layers, all temperatures above 8 gave fairly similar results. But when this was radically reduced to 30 units per layer, temperatures in the range 2.5 to 4 worked significantly better than higher or lower temperatures.

该现象可能说明将概率设置的过于soften可能会导致一些问题尤其是在拟合能力较差的网络中

另外的重要发现

遗漏数据集所有的数字3做训练后，distilled model只有206个test error只有206 其中133是对3的辨识错误（测试集中3有1010个），很多错误是bias过低导致（？）到bias增加到3.5时distilled model 给了109个error，其中14个是3
训练集只有7和8时，distilled model有47.3%的测试错误，到bias降低7.6时优化了，降低了13.2%测试错误。
一个问题：这样手动修正bias增加正确率是否有普适的意义

剩下的就是在语音数据及的实验以及大型数据及JFT的实验。具体可以参考原文。

Distilling the Knowledge in a Neural Network[论文阅读笔记]

实验部分

初步试验 Mnist数据集

相关推荐