您的位置: 首页 > 文章 > policy gradientss 强化学习 policy gradientss 强化学习 分类: 文章 • 2024-01-08 08:17:22 policy gradient 是一种基于 整个episode更新的算法,它直接对policy进行更新,能够适应连续的动作空间 算法伪代码 log(Policy(s,a))是更新的幅度,Vt是表示这个更新是好还是坏