notes4-- 深度强化学习入门到熟练（Shusen Wang）

Actor-Critic Methods

notes4-- 深度强化学习入门到熟练（Shusen Wang）
固定S，更新策略网络的 $\theta$ ，使得V的平均值增加。
策略网络 $\pi$ 相当于体操运动员，裁判相当于价值网络q，运动员努力提高技术使得裁判打分更高，裁判打的分数就是监督信号，运动员靠裁判打的分数提高自己技术。
notes4-- 深度强化学习入门到熟练（Shusen Wang）更新价值网络的w，是为了让q的打分更精准。
裁判相当于价值网络q，一开始是随机初始化，裁判没有判断能力。
裁判会逐渐改变自己的水平，使自己的打分越来越精准。
裁判依据的是环境给的奖励rewards进行改进。
notes4-- 深度强化学习入门到熟练（Shusen Wang）
通过学习两个网络，运动员分数越来越高，裁判打分越来越精准。
如何更新两个神经网络的参数:

PG with Baseline 降低方差，算法收敛更快

Summary

notes4-- 深度强化学习入门到熟练（Shusen Wang）

Actor-Critic Methods

相关推荐