您的位置: 首页 > 文章 > 《强化学习》近似值函数方法 《强化学习》近似值函数方法 分类: 文章 • 2024-01-08 10:35:04 强化学习和监督学习 表格方法的局限 RL中的函数近似 监督学习-MC MC—TD 基于值函数的RL损失函数 近似方法的一些困难 Deep Q-Network 经验回放 目标网络 奖励裁剪 DQN的一些问题和解决 Q值自相关问题 Q值过度估计 优先经验回放 Bootstrap DQN 部分可见性