【强化学习公式理解】
看了视频后,发现对RL的理解浮于表面,很多问题想不明白,所以停下来整理下公式,加深对理论的理解程度再继续推进。
第三章
Return
在一次实验中,时间步t之后的奖励记做 Rt+1, Rt+2, Rt+3, . . .,
片段奖励Gt:= Rt+1+ Rt+2+ Rt+3+· · ·+ RT, 式子(3.1):
这个地方最后一个状态是否一定是终结状态呢?这个我现在也不知道,但是当面向具体的问题时,我想这不是一个问题。总之此处定义了一个片段(epsode)的奖励值。
非终结状态:S
终结状态: S+
加上折扣因子后是:
MDP
满足马尔科夫属性的强化学习任务叫做马尔科夫决策过程markov decision process:。特别的,当状态空间和行为空间有限时,这被叫做finite markov process process,有限MDP是重要的强化学习理论,理解了finite MDP就可以解决90%的RL问题。
在Finite MDP任务中,基于当前的S,采取action a,下一个时间步的states s’和及时奖励记做式子3.6:
基于3.6式,我们可以计算更多的指标,例如及时奖励的期望值,下面的式子之所以有点奇怪,是因为考虑了转移到相同的state,可能奖励值不一样,如果相同是state,奖励值也一样的话,公式可以简化。
状态转移概率:
基于State-action-next state三元组的即时奖励期望值:
具体过程如下,:
Value function
Policy:是从state到action的映射。
在value function的命名空间下,奖励指的是奖励的期望值:。
Value function是和特定的policy绑定的,只有在一定的policy控制下,才能计算相应的value function。目的是为了评估某个state或者state-action有多好,本质上是通过奖励值来评估有多好。特别的:,终结状态的奖励值为0.
State value function for policy π。
Action value function for policy π
对于Vπ和qπ可以用经验值进行估计:例如我们可以通过计算实验数据中每个状态的奖励期望,来计算state value function,假如我们独立的统计出不同action后经历的期望值,就可以估计action value function,这种就是后面会学的蒙特卡洛方法:。如果state非常多的话,再利用这种方法就不太实际,取而代之的是基于参数:的估计方法,会在本书的第二部分介绍。
Value function的重要特点是满足递归关系:如下:
解释::基于当前的状态,可以采取一个action,基于state-action pair 转移到s’并得到及时奖励。对所以可能的action奖励值加权求和就是state value function.