notes2-- 深度强化学习入门到熟练(Shusen Wang)

Value-based Learning 价值学习

回顾

notes2-- 深度强化学习入门到熟练(Shusen Wang)

Deep Q network (DQN)

使用神经网络近似QQ^{*} 函数 Approximate the Q Funcition
notes2-- 深度强化学习入门到熟练(Shusen Wang)DQN in Super Mario
notes2-- 深度强化学习入门到熟练(Shusen Wang)notes2-- 深度强化学习入门到熟练(Shusen Wang)

Temporal difference(TD)

notes2-- 深度强化学习入门到熟练(Shusen Wang)notes2-- 深度强化学习入门到熟练(Shusen Wang)

  • TD learning for DQN notes2-- 深度强化学习入门到熟练(Shusen Wang)notes2-- 深度强化学习入门到熟练(Shusen Wang)notes2-- 深度强化学习入门到熟练(Shusen Wang)
    notes2-- 深度强化学习入门到熟练(Shusen Wang)notes2-- 深度强化学习入门到熟练(Shusen Wang)
  • Summary
    notes2-- 深度强化学习入门到熟练(Shusen Wang)notes2-- 深度强化学习入门到熟练(Shusen Wang)