困惑之间的计算上升各显着下降

困惑之间的计算上升各显着下降

问题描述:

我正在使用LSTM和tensorflow的翻译模型来训练会话代理。我使用批次式训练,导致每次纪元开始后训练数据困惑度显着下降。这种下降可以通过我批量读取数据的方式来解释,因为我保证训练数据中的每个训练对在每个纪元处理一次。当一个新纪元开始时,模型在以前的时代中所做的改进将再次遇到训练数据,从而显示其利润,表现为图中的下降。其他分批方法(如张量流的翻译模型中使用的方法)不会导致相同的行为,因为他们的方法是将整个训练数据加载到内存中,并随机从中挑选样本。困惑之间的计算上升各显着下降

enter image description here

步骤,困惑

  • 330000,19.36
  • 340000,19.20
  • 350000,17.79
  • 360000,17.79
  • 370000,17.93
  • 380000, 17.98
  • 390000,18.05
  • 400000,18.10
  • 410000,18.14
  • 420000,18.07
  • 430000,16.48
  • 440000,16.75

(从困惑小文档片断示出下降在350000和430000.之间的下降,困惑略有上升)

但是,我的问题是关于下降后的趋势。从图中可以清楚地看到,困惑度略微上升(对于每步350000后),直到下一次下降。有人可以给出答案或理论为什么会发生这种情况吗?

这将是典型的过度配合。