2017 Fall CS294 Lecture 8 Advanced Q-learning algorithms

今天接着上一讲，继续讲value functions相关的内容
2017 Fall CS294 Lecture 8 Advanced Q-learning algorithms

先回顾Q-learning。上一讲讲到 $Q_{ϕ}$ 除了tabular的情形之外，用任何function approximator（比如NN），那么算法的收敛性就无法得到保证。但本讲主要讲，怎么在实际中，让算法以较大的概率收敛。

两个问题，一个是correlation，另一个是not gradient descent！

2017 Fall CS294 Lecture 8 Advanced Q-learning algorithms

correlation问题的解释如下，由于相关性很严重，那么最终拟合的曲线就是一部分，而无法对整条曲线获得很好的拟合，因为samples不是iid的。在actor-critic算法中也会遇到这种情况，最终的解决办法是，parallelism！这同样可以用到Q-learning中：

2017 Fall CS294 Lecture 8 Advanced Q-learning algorithms

但上面不是唯一的解决办法，还有一种更好的（利用了Q-learning是off-policy算法）：

2017 Fall CS294 Lecture 8 Advanced Q-learning algorithms

好的，correlation的问题使用replay buffer的方法解决了，但是还有一个no gradient descent的问题！这个问题没有因为replay buffer的使用而得到解决，因为no gradient descent讨厌的原因在于，它的target y总是在变化。

2017 Fall CS294 Lecture 8 Advanced Q-learning algorithms

对比Q-learning和regression，引出fixed target 。也就是让Q-learning more regression-like，也会更加stable。因为target不再每个iteration都变化，从原先的 moving target变成了fixed target（不过也只是阶段性的fixed）！

2017 Fall CS294 Lecture 8 Advanced Q-learning algorithms