Hindsight Experience Replay(HER) 阅读总结笔记

Hindsight Experience Replay(HER) 阅读总结笔记

关于论文的详细内容,需要阅读论文原文,这里只作简单的阅读心得分享。
论文链接:https://arxiv.org/pdf/1707.01495.pdf
PS:手下留赞,您的点赞是我写博客的最大动力。

解决了什么问题

这个算法最重要的贡献是解决了稀疏奖励难以收敛的问题,举个例子:下围棋是个奖励十分稀疏的难题,因为很难判别中间那些状态更有利于棋局的胜负,只有等围棋结束后,才好给奖励,赢了给正奖励,输了给更低的奖励。

算法核心

Hindsight Experience Replay(HER) 阅读总结笔记
针对稀疏奖励的强化学习任务,作者从增加目标状态的角度出发,可以理解为:假设我需要从A到D,中间可能会经过B和C,那么,我现在就增加目标状态,增加的方法为:假设我到了B或者C,我也给它奖励,这样学习起来就容易多了,因为有奖励的引导。

好了,我们说说算法的核心部分,整个算法最核心的地方是红笔标记的4行。我们都知道,强化学习习惯说episode的概念,HER算法在每个episode结束后,对上一个刚结束的episode类似于随机的机制采一些next_state的样本,把这些状态设置为目标状态之一,并设置奖励。这样,就把整个问题的奖励稀疏度减小了,从而减小了奖励获取的难度,更容易引导学习收敛。

问题讨论

好了整个算法的核心思想就讲解完了,下面说说我自己在阅读这篇论文的问题,我简单的跑了下程序,增加了训练次数,平均奖励回报如图所示:
Hindsight Experience Replay(HER) 阅读总结笔记
1.为什么随机采样一些状态,并设置奖励就可以加快收敛,其中的道理自己还不明白。
2.增加训练次数后,算法的学习奖励平均回报却大幅下降,又是为什么呢?
3.还有一个更大的问题,就是,这个算法的后期给我的感觉应该是没有什么太大效果的,从上图中可以看到,后期平均回报大幅下降,甚至接近最低回报奖励了,这让我不得不怀疑,后期算法是不是就没有效果了,因为,算法中给很多中间态增加了奖励,这样,即便是都采用随机策略,得到的平均奖励肯定也会更高。

欢迎大家在下方留言讨论,希望您不吝赐教。