摘要

主要思想就是在DQN基础上加入Recurrent LSTM。之前DQN会限制于memory(内存大小)，同时决策也需要获到完整的观测信息，而实际环境中观测信息可能并不完全。为解决这些问题，文章加入LSTM代替原有DQN中的全连接层，形成Deep Recurrent Q-Network (DRQN)，结合记忆信息并且在POMDP(Partially Observable Markov Decision Process)的游戏中综合表现优于原始的DQN。实验发现当训练使用complete observation而测试时使用partial observation时，DRQN模型表现下降的程度比DQN也要小。因此DRQN相对于DQN对于不同程度观测数据的适用能力也就更强，对缺失的数据更不敏感。

方法

1. DRQN架构

将DQN中的网络的全连接层变为LSTM层。结构如图：
Deep Recurrent Q-Learning for Partially Observable MDPs笔记

2.Stable Recurrent Updates

1.）Bootstrapped Sequential Updates

直接从replay buffer中抽取整个episode进行学习更新，但是忽略了DQN采样的随机性。

2.）Bootstrapped Random Updates

在一个episode中随机选择某个transition，利用transition之后若干步的序列进行学习更新直到最后，也更加符合DQN中random sample的想法，同时两者实验效果相当，文章采用第二种。

实验

构造由MDP到POMDP的过程：Flickering Atari Games

以一定的概率（文中是0.5）隐藏看到的state，因此环境就由MDP转为POMDP（因为游戏画面之间缺少了一些帧，也就是缺少了一部分信息）。

Results：

Deep Recurrent Q-Learning for Partially Observable MDPs笔记

可以看出让POMDP中的信息趋近于完整的观测时，DRQN与DQN差距不大；而当观测完整性下降时，DRQN的表现就明显优于DQN的表现了。

总结

文章的keypoints：

1.DQN+LSTM
2.Bootstrapped Random Updates
3.Flickering Atari Games

Deep Recurrent Q-Learning for Partially Observable MDPs笔记

Deep Recurrent Q-Learning for Partially Observable MDPs笔记

摘要

相关工作

1.DQN

2.Partial Observability

方法

1. DRQN架构

2.Stable Recurrent Updates

实验

Results：

总结

相关推荐