notes4-- 深度强化学习入门到熟练(Shusen Wang)

Actor-Critic Methods

notes4-- 深度强化学习入门到熟练(Shusen Wang)notes4-- 深度强化学习入门到熟练(Shusen Wang)notes4-- 深度强化学习入门到熟练(Shusen Wang)notes4-- 深度强化学习入门到熟练(Shusen Wang)notes4-- 深度强化学习入门到熟练(Shusen Wang)
固定S,更新策略网络的θ\theta,使得V的平均值增加。
策略网络π\pi相当于体操运动员,裁判相当于价值网络q,运动员努力提高技术使得裁判打分更高,裁判打的分数就是监督信号,运动员靠裁判打的分数提高自己技术。
notes4-- 深度强化学习入门到熟练(Shusen Wang)更新价值网络的w,是为了让q的打分更精准。
裁判相当于价值网络q, 一开始是随机初始化,裁判没有判断能力。
裁判会逐渐改变自己的水平,使自己的打分越来越精准。
裁判依据的是环境给的奖励rewards进行改进。
notes4-- 深度强化学习入门到熟练(Shusen Wang)notes4-- 深度强化学习入门到熟练(Shusen Wang)
通过学习两个网络,运动员分数越来越高,裁判打分越来越精准。
notes4-- 深度强化学习入门到熟练(Shusen Wang)如何更新两个神经网络的参数:
notes4-- 深度强化学习入门到熟练(Shusen Wang)notes4-- 深度强化学习入门到熟练(Shusen Wang)notes4-- 深度强化学习入门到熟练(Shusen Wang)notes4-- 深度强化学习入门到熟练(Shusen Wang)
PG with Baseline 降低方差,算法收敛更快
notes4-- 深度强化学习入门到熟练(Shusen Wang)

  • Summary
    notes4-- 深度强化学习入门到熟练(Shusen Wang)notes4-- 深度强化学习入门到熟练(Shusen Wang)notes4-- 深度强化学习入门到熟练(Shusen Wang)