您的位置: 首页 > 文章 > policy gradientss 强化学习

policy gradientss 强化学习

分类: 文章 • 2024-01-08 08:17:22

policy gradient 是一种基于整个episode更新的算法，它直接对policy进行更新，能够适应连续的动作空间

算法伪代码

policy gradientss 强化学习

log(Policy(s,a))是更新的幅度，Vt是表示这个更新是好还是坏