RL论文阅读5 - RWMFPE 2018

Tittle

RL论文阅读5 - RWMFPE 2018source

标签

  • Model Based

总结

提出了一个新的Model-Based学习的框架。如图:

RL论文阅读5 - RWMFPE 2018

这个模型一共分成三个部分:

V:用来将输入的图片编码成z。学习图像的抽象表示。

M:用来预测未来的z。M生成的是z的概率密度而不是直接生成z向量。

C:根据M产出的h和V产出的z,生成一个动作a。C一般是一个简单线性的。

在训练时:先训练V,然后用V的产出训练M,最后整合训练C

原理

这个论文的试验环境是两个游戏:Car Racing 和 VizDoom

环境的信息直接从每一帧的图像中提取。

  1. V

    V层使用的是Variational Atuoencoder(论文待看)的方式把图片帧压缩成向量z。具体的如图

    RL论文阅读5 - RWMFPE 2018

左侧就是卷积卷积卷积。然后通过两个dense层分别生成μ\muσ\sigma,这里强行引入正态分布。z就是从N(μ,σI)N(\mu,\sigma I)这个分布中采样而来。

下面的Deconv层是从z中重构图片。利用重构的图片与输入图片的L2L^2距离以及KL loss去训练网络。这样能够保证z的表达正确性。

  1. M(Mixture Density Network + Recurrent Neural Network)

使用的是LSTM RNN结合Mixture Density Network作为输出层。如上图。

引入的一个超参τ\tau

  1. C

    使用tanh作为**函数。就是一个简单的一层。