【强化学习公式理解】

看了视频后，发现对RL的理解浮于表面，很多问题想不明白，所以停下来整理下公式，加深对理论的理解程度再继续推进。

第三章

Return

在一次实验中，时间步t之后的奖励记做 Rt+1, Rt+2, Rt+3, . . .,

片段奖励Gt:= Rt+1+ Rt+2+ Rt+3+· · ·+ RT, 式子(3.1)：
这个地方最后一个状态是否一定是终结状态呢？这个我现在也不知道，但是当面向具体的问题时，我想这不是一个问题。总之此处定义了一个片段(epsode)的奖励值。

非终结状态：S
终结状态： S+
加上折扣因子后是：
【强化学习公式理解】

MDP

满足马尔科夫属性的强化学习任务叫做马尔科夫决策过程markov decision process:。特别的，当状态空间和行为空间有限时，这被叫做finite markov process process，有限MDP是重要的强化学习理论，理解了finite MDP就可以解决90%的RL问题。

在Finite MDP任务中，基于当前的S，采取action a，下一个时间步的states s’和及时奖励记做式子3.6：
【强化学习公式理解】
基于3.6式，我们可以计算更多的指标，例如及时奖励的期望值，下面的式子之所以有点奇怪，是因为考虑了转移到相同的state，可能奖励值不一样，如果相同是state，奖励值也一样的话，公式可以简化。

状态转移概率：
【强化学习公式理解】
基于State-action-next state三元组的即时奖励期望值：

具体过程如下,：

Value function

Policy:是从state到action的映射。
在value function的命名空间下，奖励指的是奖励的期望值:。
Value function是和特定的policy绑定的，只有在一定的policy控制下，才能计算相应的value function。目的是为了评估某个state或者state-action有多好，本质上是通过奖励值来评估有多好。特别的:，终结状态的奖励值为0.

State value function for policy π。
【强化学习公式理解】
Action value function for policy π

对于Vπ和qπ可以用经验值进行估计：例如我们可以通过计算实验数据中每个状态的奖励期望，来计算state value function，假如我们独立的统计出不同action后经历的期望值，就可以估计action value function，这种就是后面会学的蒙特卡洛方法:。如果state非常多的话，再利用这种方法就不太实际，取而代之的是基于参数:的估计方法，会在本书的第二部分介绍。

Value function的重要特点是满足递归关系:如下：【强化学习公式理解】
解释:：基于当前的状态，可以采取一个action，基于state-action pair 转移到s’并得到及时奖励。对所以可能的action奖励值加权求和就是state value function.

【强化学习公式理解】

【强化学习公式理解】

第三章

Return

MDP

Value function

相关推荐