RL论文阅读5 - RWMFPE 2018
Tittle
标签
- Model Based
总结
提出了一个新的Model-Based学习的框架。如图:
这个模型一共分成三个部分:
V:用来将输入的图片编码成z。学习图像的抽象表示。
M:用来预测未来的z。M生成的是z的概率密度而不是直接生成z向量。
C:根据M产出的h和V产出的z,生成一个动作a。C一般是一个简单线性的。
在训练时:先训练V,然后用V的产出训练M,最后整合训练C
原理
这个论文的试验环境是两个游戏:Car Racing 和 VizDoom
环境的信息直接从每一帧的图像中提取。
-
V
V层使用的是Variational Atuoencoder(论文待看)的方式把图片帧压缩成向量z。具体的如图
左侧就是卷积卷积卷积。然后通过两个dense层分别生成和,这里强行引入正态分布。z就是从这个分布中采样而来。
下面的Deconv层是从z中重构图片。利用重构的图片与输入图片的距离以及KL loss去训练网络。这样能够保证z的表达正确性。
- M(Mixture Density Network + Recurrent Neural Network)
使用的是LSTM RNN结合Mixture Density Network作为输出层。如上图。
引入的一个超参
-
C
使用tanh作为**函数。就是一个简单的一层。