2020-10-23
Datawhale深度强化学习打卡
1.Markov决策过程两个重要函数
state-value function :action-value function:
两者之间的关系:
2.寻找最佳策略的办法
2.1策略迭代:有两个步骤,第一步包括策略评估和策略优化,第二部进行策略的优化,代表算法是SARSA
2.2值迭代:一直只进行Bellman Optimality Equation,迭代出optimal value function后只做一次policy update。代表算法是Q-learning
对于Bellman 方程的求解主要有三种:
1.蒙特卡罗法,通过采样的方法去估计状态的期望值函数,但是必须到达终态才能得到状态s的值函数,因此更新过程非常缓慢,学习效率不高。当采样的次数足够的多(保证每一个可能的状态-动作都能被采样到)时,就可以最大程度的逼近状态的真实期望值函数。
2. 迭代算法(动态规划),在已知状态转换概率和回报函数的情况下,不需要与环境的交互,直接通过策略迭代或值迭代方法得到最优策略。
3. 以上两种的结合:时间差异学习方法(Temporal-Difference learning)结合动态规划的思想,可以实现单步更新,提升效率;结合蒙特卡洛的采样,可以避免对状态转换概率的依赖,通过采样估计状态的期望值函数。使得时序差分能够在缺少环境动态模型的情况下从原始经验中直接进行学习。
Q-learning代码学习
因为是从github下载的代码,已经是训练好的,运行结果一开始就达到了最佳reward 即-13结果图似乎跟以上结果不太对应,这部分还没搞清楚是怎么肥四