您的位置: 首页 > 文章 > 强化学习——强化概念

强化学习——强化概念

分类: 文章 • 2024-01-06 20:37:44

1.强化概念：巴浦洛夫的条件反射实验

强化学习——强化概念

强化学习——强化概念

在不断的重复实验后，下一个状态的价值不断的强化影响上一个状态的价值。

2.Temporal Differenct时序差分（TD单步更新）

拿下一步的Q值更新这一步的Q值

第一个强化学习——强化概念为想要逼近的目标值，软更新的方式是每次更新一点点，

在这个不断更新的过程中需要强化学习——强化概念

强化学习——强化概念

3.与环境交互

强化学习——强化概念