L2: Markov Decision学习笔记

前言

本节主要讲述了MP、MRP、MDP的基本概念,并介绍了Bellman方程在计算状态/动作值函数中的应用,进一步说明何为最优策略,最后介绍了MDP的几种扩展形式,例如POMDP。

L2: Markov Decision学习笔记

MP

L2: Markov Decision学习笔记

L2: Markov Decision学习笔记

L2: Markov Decision学习笔记

马尔科夫过程具有无记忆性,MP可以用元组<S,P>来表示,S代表状态,P表示状态之间的转移矩阵, 从示例来看,MP仅含有SP

MRP

L2: Markov Decision学习笔记
L2: Markov Decision学习笔记

相比MP,MRP多了2个维度,其表示为 <S, P, R, Y>, R表示在某一状态S下做出行为所得到的立即奖励,Y 为折扣因子,即未来的状态对当前状态的影响力。接下来,引入如何计算MRP中的状态价值函数v(s)

L2: Markov Decision学习笔记

L2: Markov Decision学习笔记

L2: Markov Decision学习笔记

在MRP中,可以用统计均值来逼近期望,也就是大数定理,如示例所示,v(v1)=14(2.253.1253.413.20)
接着,来看下,Bellman如何计算状态价值的。

L2: Markov Decision学习笔记
L2: Markov Decision学习笔记

L2: Markov Decision学习笔记

从示例可以看见,每个状态的价值计算均符合Bellman计算公式。

MDP

L2: Markov Decision学习笔记

MDP中引入了action 和 policy的概念,表示为<S, A, P, R, Y>

L2: Markov Decision学习笔记
L2: Markov Decision学习笔记
L2: Markov Decision学习笔记

上述阐述了policy价值函数的概念,policy也就是一个将状态空间S映射到动作空间A的一个函数,记为 π(a|s) , 价值函数分为两种,一种用来衡量状态的好坏,记为v(s), 一种用来衡量在某一状态下某一动作的好坏,记为qπ(a,s)。在今后的学习中,会经常碰到这两个概念。

L2: Markov Decision学习笔记

为了加强v(s)qπ(a,s)的理解,可以计算示例中每一状态的价值。

L2: Markov Decision学习笔记

最优值函数和最优策略

L2: Markov Decision学习笔记
L2: Markov Decision学习笔记

当策略为最优时,状态/行为值函数均达到最大。状态/行为值函数达到最大时,便会得到最优策略。因此,在求解Bellman方程时有基于值函数的解法,也有基于Policy的解法,value based的方法,输出的action的,而policy based输出的action发生的概率,两种方法均能够达到最优点。

Extension to MDPs

在实际中,往往会遇到,不能够观测到环境的所有状态量,因而,存在隐变量,这种MDP称为POMDP,即部分可观测MDP。其他特殊的MDP参考ppt。

L2: Markov Decision学习笔记

Reference:

Lecture 2: Markov Decision Processes David silver