强化学习——强化概念
1.强化概念:巴浦洛夫的条件反射实验
在不断的重复实验后,下一个状态的价值不断的强化影响上一个状态的价值。
2.Temporal Differenct时序差分(TD单步更新)
拿下一步的Q值更新这一步的Q值
第一个为
想要逼近的目标值,软更新的方式是每次更新一点点,
在这个不断更新的过程中需要
3.与环境交互
1.强化概念:巴浦洛夫的条件反射实验
在不断的重复实验后,下一个状态的价值不断的强化影响上一个状态的价值。
2.Temporal Differenct时序差分(TD单步更新)
拿下一步的Q值更新这一步的Q值
第一个为
想要逼近的目标值,软更新的方式是每次更新一点点,
在这个不断更新的过程中需要
3.与环境交互