深度强化学习 on-policy 和 off-policy
如下图,考查两个Policy的一致性:
- 生成训练数据基于的Behavior Policy
- 目标值即target value基于的Target Policy
on-policy:两者一致
off-policy:两者不同
比如DQN:
Target Policy π 是基于target network(参数为)的greedy policy,即给定s,选择使target value最大的a;
Behavior Policy b 是基于predict network(参数为)的
-greedy policy,同时保留一定的探索性;
二者基于不同的参数和不同的策略,为off-policy.
比如A3C:
policy π ---> (reward, state) ---> V ---> R ---> delta error
目标值R就是直接基于policy network(π, 参数为)生成的数据,即on-policy data。
以上图片下文字描述摘自Richard S. Sutton and Andrew G. Barto的《Reinforcement Learning: An Introduction》.