《深入浅出强化学习》基于值函数逼近
基于值函数逼近的强化学习方法
强化学习的基本步骤是①先评估值函数,②利用值函数改进当前策略,其中值函数的评估是关键。
所谓参数化逼近,是指值函数可以由一组参数θ来近似。
当逼近的值函数结构确定时,那么值函数的逼近、更新等价于参数的逼近、更新。也就是说,我们需要利用试验数据来更新值函数。
(红色的目标值)
值函数更新分为增量式学习方法和批方法。
增量式学习方法
最常用的增量式学习方法是随机梯度下降法。
(注意Gt和Ut的区别,一个是期望目标值函数,一个是估计值函数)
推荐:https://zhuanlan.zhihu.com/p/61512133
(每一个目标值Ut注意替换)
基于蒙特卡洛方法的函数逼近:
基于时间差分算法的函数逼近
可以看出参数θ不仅出现在要估计的值函数中,还出现在目标值函数Ut中。
基于半梯度的TD(0)值函数评估算法
基于半梯度的Sarsa算法
下面仅讨论线性逼近:
相比于非线性逼近,线性逼近的好处是只有一个最优值,因此可以收敛到全局最优。
其中Φ(s)为状态s处的特征函数(或称之为基函数)。
(常用的特征函数(基函数)如下)
(将线性逼近值函数代入随机梯度下降法和半梯度下降法得到更新公式)
批方法
(最常用方法的参数表示)