notes3-- 深度强化学习入门到熟练(Shusen Wang)

Policy-Based RL

用神经网络近似策略函数π\pi
notes3-- 深度强化学习入门到熟练(Shusen Wang)
notes3-- 深度强化学习入门到熟练(Shusen Wang)notes3-- 深度强化学习入门到熟练(Shusen Wang)
回顾 State-Value Function Approximation
notes3-- 深度强化学习入门到熟练(Shusen Wang)使用策略网络π(ast;θ)\pi(a|s_{t};\theta)代替策略函数π(ast)\pi(a|s_{t})
notes3-- 深度强化学习入门到熟练(Shusen Wang)SS求期望,消去SS,只有θ\theta
策略网络越好,J(θ)J(\theta)越大。目标:Maximizes J(θ)J(\theta),梯度上升
notes3-- 深度强化学习入门到熟练(Shusen Wang)

  • Policy Gradient
    notes3-- 深度强化学习入门到熟练(Shusen Wang)假设QπQ_{\pi}不依赖于θ\theta
    notes3-- 深度强化学习入门到熟练(Shusen Wang)notes3-- 深度强化学习入门到熟练(Shusen Wang)notes3-- 深度强化学习入门到熟练(Shusen Wang)notes3-- 深度强化学习入门到熟练(Shusen Wang)
    (简化了推导,不严谨,易于理解)
    notes3-- 深度强化学习入门到熟练(Shusen Wang)
    两种形式等价
    若动作是离散的,采用Form 1:
    notes3-- 深度强化学习入门到熟练(Shusen Wang)若动作是离散的,采用Form 2:
    A是连续变量,求期望需要求定积分,但π\pi函数是个复杂神经网络,无法求定积分,因此采用蒙特卡洛近似。
    notes3-- 深度强化学习入门到熟练(Shusen Wang)由于g(a^,θ)g(\hat{a},\theta)是策略梯度的无偏估计,所以可以用g(a^,θ)g(\hat{a},\theta)来近似策略梯度,这叫做蒙特卡洛近似。(蒙特卡洛就是抽一个或很多随机样本,用随机样本来近似期望)
    notes3-- 深度强化学习入门到熟练(Shusen Wang)notes3-- 深度强化学习入门到熟练(Shusen Wang)Update policy network using policy gradient
    notes3-- 深度强化学习入门到熟练(Shusen Wang)如何计算qtQπ(st,at)q_{t} \approx Q_{\pi}(s_{t}, a_{t})
    notes3-- 深度强化学习入门到熟练(Shusen Wang)notes3-- 深度强化学习入门到熟练(Shusen Wang)
  • Summary
    notes3-- 深度强化学习入门到熟练(Shusen Wang)