您的位置: 首页 > 文章 > L2: Markov Decision学习笔记

L2: Markov Decision学习笔记

分类: 文章 • 2024-01-06 19:03:04

前言

本节主要讲述了MP、MRP、MDP的基本概念，并介绍了Bellman方程在计算状态/动作值函数中的应用，进一步说明何为最优策略，最后介绍了MDP的几种扩展形式，例如POMDP。

L2: Markov Decision学习笔记

MP

L2: Markov Decision学习笔记

L2: Markov Decision学习笔记

L2: Markov Decision学习笔记

马尔科夫过程具有无记忆性，MP可以用元组<S,P>来表示，S代表状态，P表示状态之间的转移矩阵, 从示例来看，MP仅含有S、P。

MRP

L2: Markov Decision学习笔记

相比MP，MRP多了2个维度，其表示为 <S, P, R, Y>, R表示在某一状态S下做出行为所得到的立即奖励，Y 为折扣因子，即未来的状态对当前状态的影响力。接下来，引入如何计算MRP中的状态价值函数v(s)

L2: Markov Decision学习笔记

L2: Markov Decision学习笔记

L2: Markov Decision学习笔记

在MRP中，可以用统计均值来逼近期望，也就是大数定理，如示例所示， $v (v_{1}) = \frac{1}{4} (- 2.25 - 3.125 - 3.41 - 3.20)$
接着，来看下，Bellman如何计算状态价值的。

L2: Markov Decision学习笔记

L2: Markov Decision学习笔记

从示例可以看见，每个状态的价值计算均符合Bellman计算公式。

MDP

L2: Markov Decision学习笔记

MDP中引入了action 和 policy的概念，表示为<S, A， P, R, Y>

L2: Markov Decision学习笔记

上述阐述了policy和价值函数的概念，policy也就是一个将状态空间S映射到动作空间A的一个函数，记为 $π (a | s)$ , 价值函数分为两种，一种用来衡量状态的好坏，记为 $v (s)$ , 一种用来衡量在某一状态下某一动作的好坏，记为 $q_{π} (a, s)$ 。在今后的学习中，会经常碰到这两个概念。

L2: Markov Decision学习笔记

为了加强 $v (s)$ 和 $q_{π} (a, s)$ 的理解，可以计算示例中每一状态的价值。

L2: Markov Decision学习笔记

最优值函数和最优策略

L2: Markov Decision学习笔记

当策略为最优时，状态/行为值函数均达到最大。状态/行为值函数达到最大时，便会得到最优策略。因此，在求解Bellman方程时有基于值函数的解法，也有基于Policy的解法，value based的方法，输出的action的值，而policy based输出的action发生的概率，两种方法均能够达到最优点。

Extension to MDPs

在实际中，往往会遇到，不能够观测到环境的所有状态量，因而，存在隐变量，这种MDP称为POMDP，即部分可观测MDP。其他特殊的MDP参考ppt。

L2: Markov Decision学习笔记

Reference：

Lecture 2: Markov Decision Processes David silver