困惑之间的计算上升各显着下降
问题描述:
我正在使用LSTM和tensorflow的翻译模型来训练会话代理。我使用批次式训练,导致每次纪元开始后训练数据困惑度显着下降。这种下降可以通过我批量读取数据的方式来解释,因为我保证训练数据中的每个训练对在每个纪元处理一次。当一个新纪元开始时,模型在以前的时代中所做的改进将再次遇到训练数据,从而显示其利润,表现为图中的下降。其他分批方法(如张量流的翻译模型中使用的方法)不会导致相同的行为,因为他们的方法是将整个训练数据加载到内存中,并随机从中挑选样本。困惑之间的计算上升各显着下降
步骤,困惑
- 330000,19.36
- 340000,19.20
- 350000,17.79
- 360000,17.79
- 370000,17.93
- 380000, 17.98
- 390000,18.05
- 400000,18.10
- 410000,18.14
- 420000,18.07
- 430000,16.48
- 440000,16.75
(从困惑小文档片断示出下降在350000和430000.之间的下降,困惑略有上升)
但是,我的问题是关于下降后的趋势。从图中可以清楚地看到,困惑度略微上升(对于每步350000后),直到下一次下降。有人可以给出答案或理论为什么会发生这种情况吗?
答
这将是典型的过度配合。