《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程

1、MDP过程

《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程
强化学习的过程是动态的、不断交互的过程,所需要的的数据也是通过和环境不断交互产生的,很像人的学习过程,解决的是决策的问题。

深度学习如图像识别和语音识别解决的是感知的问题。

人工智能的最终目的是通过感知进行智能决策。所以近年来发展起来的深度学习技术和强化学习算法结合产生的深度强化学习算法是人类实现人工智能终极目的的一个很有前景的方法。

**马尔科夫决策过程(简称MDP过程)**可以解决大部分强化学习问题,下面按照马尔科夫性、马尔科夫过程、马尔科夫决策过程的顺序依次学习。

(1)马尔科夫性

⻢尔科夫性是指系统的下⼀个状态st+1 仅与当前状态st 有关,而与以前的状态⽆关。
状态st 是⻢尔科夫的,当且仅当P[st+1 |st ]=P[st+1 |s1 ,…,st ],即st状态包含了所有相关的历史信息。

(2)马尔科夫过程

马尔科夫过程是⼀个⼆元组(S,P),且满足:
S是有限n个状态集合,P是状态转移概率。
状态转移概率矩阵为:
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程

(3)马尔科夫决策过程

马尔科夫决策过程由元组(S,A,P,R,γ)描述,其中:
S 为有限的状态集 ,A 为有限的动作集 ,P 为状态转移概率 ,R 为回报函数 ,γ 为折扣因子用来计算累积回报。

跟马尔科夫过程不同的是,马尔科夫决策过程的状态转移概率包含前一时刻的动作
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程
强化学习的目标是给定⼀个马尔科夫决策过程,寻找最优策略。所谓策略是指状态到动作的映射,策略常用符号π表示,它是指给定状态s时,动作集上的⼀个分布,如果给出的策略π是确定性的,那么策略π在每个状态s指定⼀个确定的动作a。
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程
例如⼀个学⽣的策略为π1 (玩|s1 )=0.8,是指该学生在状态s1 时玩的概率为0.8,不玩的概率是0.2,显然这个学⽣更喜欢玩。

累计回报
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程
因为策略π是随机的,所以累计回报也是随机的,但是累计回报的期望是一个确定值,将累计回报的期望定义为状态值函数。
状态值函数
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程
状态值函数的贝尔曼公式
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程
最优状态值函数υ* (s)
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程

状态-行为值函数
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程
状态-行为值函数的贝尔曼公式
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程
最优状态-行为值函数q* (s,a)
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程
最优状态值函数和最优状态-行动值函数的贝尔曼最优方程
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程

《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程

2、MDP过程中的概率学知识

随机变量、概率分布、条件概率的定义不再赘述。

(1)期望

函数f(x)关于某分布p(x)的期望是指当x由分布p(x)产生,f作用于x时,f(x)的平均值。
对离散型随机变量
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程
对连续型随机变量
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程
期望的运算时线性的
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程

(2)方差

方差是衡量利⽤当前概率分布采样时,采样值差异的大小。
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程

(3)常用的随机策略

贪婪策略

《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程
贪婪策略是一个确定性策略,只在最优状态-行为值函数最大的动作处取1,其余取0。

ε-greedy策略

《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程
ε-greedy策略是强化学习最基本最常用的随机策略。最优状态-行为值函数最大的动作处取上面的概率,其余处等概,为下面的概率。

高斯策略

《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程
μ为确定性部分,后面为零均值的高斯随机噪声。
⾼斯策略在连续系统的强化学习中应用广泛。

玻尔兹曼分布

对于动作空间是是离散的或者动作空间并不大的情况,可采⽤玻尔兹曼分布作为随机策略。
《深入浅出强化学习原理入门》学习笔记(二)马尔科夫决策过程
动作值大的函数被选中的概率大,动作值小的函数被选中的概率小。