您的位置: 首页 > 文章 > notes3-- 深度强化学习入门到熟练（Shusen Wang）

notes3-- 深度强化学习入门到熟练（Shusen Wang）

分类: 文章 • 2024-01-06 21:36:22

Policy-Based RL

用神经网络近似策略函数 $\pi$
notes3-- 深度强化学习入门到熟练（Shusen Wang）

回顾 State-Value Function Approximation
使用策略网络 $\pi(a|s_{t};\theta)$ 代替策略函数 $\pi(a|s_{t})$
对 $S$ 求期望，消去 $S$ ，只有 $\theta$
策略网络越好， $J(\theta)$ 越大。目标：Maximizes $J(\theta)$ ，梯度上升
notes3-- 深度强化学习入门到熟练（Shusen Wang）

Policy Gradient
假设 $Q_{\pi}$ 不依赖于 $\theta$

（简化了推导，不严谨，易于理解）

两种形式等价
若动作是离散的，采用Form 1：
若动作是离散的，采用Form 2：
A是连续变量，求期望需要求定积分，但 $\pi$ 函数是个复杂神经网络，无法求定积分，因此采用蒙特卡洛近似。
由于 $g(\hat{a},\theta)$ 是策略梯度的无偏估计，所以可以用 $g(\hat{a},\theta)$ 来近似策略梯度，这叫做蒙特卡洛近似。（蒙特卡洛就是抽一个或很多随机样本，用随机样本来近似期望）
Update policy network using policy gradient
如何计算 $q_{t} \approx Q_{\pi}(s_{t}, a_{t})$
Summary