强化学习无模型与基于模型区别
了解强化学习,我们首先得知道Bellman方程:
其可表示为递归形式的状态价值方程形式:
https://blog.****.net/weixin_43522964/article/details/105258065
一句话,有模型与无模型的区别,在于是否已知当前状态、动作转移至下一状态及获得奖励的分布,若能直接提供给强化学习算法,则称之为基于模型。
参考至网页中的分析。
了解强化学习,我们首先得知道Bellman方程:
其可表示为递归形式的状态价值方程形式:
https://blog.****.net/weixin_43522964/article/details/105258065
一句话,有模型与无模型的区别,在于是否已知当前状态、动作转移至下一状态及获得奖励的分布,若能直接提供给强化学习算法,则称之为基于模型。
参考至网页中的分析。