L2: Markov Decision学习笔记
前言
本节主要讲述了MP、MRP、MDP的基本概念,并介绍了Bellman方程在计算状态/动作值函数中的应用,进一步说明何为最优策略,最后介绍了MDP的几种扩展形式,例如POMDP。
MP
马尔科夫过程具有
无记忆性
,MP可以用元组<S,P>
来表示,S
代表状态,P
表示状态之间的转移矩阵, 从示例来看,MP仅含有S
、P
。
MRP
相比MP,MRP多了2个维度,其表示为
<S, P, R, Y>
, R表示在某一状态S下做出行为所得到的立即奖励
,Y 为折扣因子,即未来的状态对当前状态的影响力
。接下来,引入如何计算MRP中的状态价值函数v(s)
在MRP中,可以用
统计均值
来逼近期望
,也就是大数定理,如示例所示,
接着,来看下,Bellman如何计算状态价值的。
从示例可以看见,每个状态的价值计算均符合Bellman计算公式。
MDP
MDP中引入了action 和 policy的概念,表示为
<S, A, P, R, Y>
上述阐述了
policy
和价值函数
的概念,policy也就是一个将状态空间S映射
到动作空间A的一个函数,记为 , 价值函数分为两种,一种用来衡量状态的好坏
,记为, 一种用来衡量在某一状态下某一动作的好坏
,记为。在今后的学习中,会经常碰到这两个概念。
为了加强 和的理解,可以计算示例中每一状态的价值。
最优值函数和最优策略
当策略为最优时,状态/行为值函数均达到最大。状态/行为值函数达到最大时,便会得到最优策略。因此,在求解Bellman方程时有基于值函数的解法,也有基于Policy的解法,
value based
的方法,输出的action的值
,而policy based
输出的action发生的概率
,两种方法均能够达到最优点。
Extension to MDPs
在实际中,往往会遇到,不能够观测到环境的所有状态量,因而,存在
隐变量
,这种MDP称为POMDP,即部分可观测MDP。其他特殊的MDP参考ppt。
Reference:
Lecture 2: Markov Decision Processes David silver