notes3-- 深度强化学习入门到熟练(Shusen Wang)
Policy-Based RL
用神经网络近似策略函数
回顾 State-Value Function Approximation使用策略网络代替策略函数
对求期望,消去,只有
策略网络越好,越大。目标:Maximizes ,梯度上升
- Policy Gradient
假设不依赖于
(简化了推导,不严谨,易于理解)
两种形式等价
若动作是离散的,采用Form 1:若动作是离散的,采用Form 2:
A是连续变量,求期望需要求定积分,但函数是个复杂神经网络,无法求定积分,因此采用蒙特卡洛近似。由于是策略梯度的无偏估计,所以可以用来近似策略梯度,这叫做蒙特卡洛近似。(蒙特卡洛就是抽一个或很多随机样本,用随机样本来近似期望)
Update policy network using policy gradient
如何计算
- Summary