困惑之间的计算上升各显着下降

问题描述：

我正在使用LSTM和tensorflow的翻译模型来训练会话代理。我使用批次式训练，导致每次纪元开始后训练数据困惑度显着下降。这种下降可以通过我批量读取数据的方式来解释，因为我保证训练数据中的每个训练对在每个纪元处理一次。当一个新纪元开始时，模型在以前的时代中所做的改进将再次遇到训练数据，从而显示其利润，表现为图中的下降。其他分批方法（如张量流的翻译模型中使用的方法）不会导致相同的行为，因为他们的方法是将整个训练数据加载到内存中，并随机从中挑选样本。困惑之间的计算上升各显着下降

步骤，困惑

330000，19.36
340000，19.20
350000，17.79
360000，17.79
370000，17.93
380000， 17.98
390000，18.05
400000，18.10
410000，18.14
420000，18.07
430000，16.48
440000，16.75

（从困惑小文档片断示出下降在350000和430000.之间的下降，困惑略有上升）

但是，我的问题是关于下降后的趋势。从图中可以清楚地看到，困惑度略微上升（对于每步350000后），直到下一次下降。有人可以给出答案或理论为什么会发生这种情况吗？

答

这将是典型的过度配合。

困惑之间的计算上升各显着下降

相关推荐