强化学习——强化概念

1.强化概念:巴浦洛夫的条件反射实验

强化学习——强化概念

强化学习——强化概念

在不断的重复实验后,下一个状态的价值不断的强化影响上一个状态的价值。

2.Temporal Differenct时序差分(TD单步更新)

拿下一步的Q值更新这一步的Q值

第一个强化学习——强化概念强化学习——强化概念想要逼近的目标值,软更新的方式是每次更新一点点,

在这个不断更新的过程中需要强化学习——强化概念

强化学习——强化概念

3.与环境交互

强化学习——强化概念