强化学习之最基础篇

最近由于实习公司分享会而研究强化学习知识，因而学了强化学习，为期一周5天的研究（实际就3天，还有2天做PPT，准备，分享等），研究内容偏少，但是基本弄懂了

正式开始

大部分来自于西瓜书的强化学习一章
由于分享时做了ppt，所以以下内容均来自ppt截图，毕竟懒（没时间），没有了播放的动画效果
同时会附上ppt的备注一丢丢和逻辑思路一丢丢

1

强化学习之最基础篇

2

强化学习之最基础篇

3

强化学习之最基础篇

对于什么是强化学习，我将根据一个例子来做描述。以种西瓜为例，从一开始的选种、到定期浇水、施肥、除草、杀虫等工作，通常要等到最后收获西瓜之后，才知道种的瓜好不好。也就是说，我们在种瓜过程中执行的某个操作时，并不能判断这个操作能不能种出好瓜，仅能得到一个当前的反馈，比如瓜苗看起来更健壮了。因此我们就需要多次种瓜并且不断摸索，才能总结一个好的种瓜策略。摸索这个最优的种瓜策略的过程，实际上就是强化学习。（来自西瓜书）

标记延迟解释，比如目前状态是缺水，对于监督学习是有标记即动作浇水的，而强化学习没有此标记，之后会根据环境得到最好的动作浇水，此标记是环境反馈的，却是延迟的

4

强化学习之最基础篇

智能体与环境交互的场景

5

强化学习之最基础篇

状态空间分为无限和有限状态空间，动作空间有连续型的和离散型的动作，本次分享主要是基于有限状态空间的离散型动作的分享

从右下角的图中我们可以看出~强化学习(RL)的数据是序列的、交互的、并且还是有反馈

6

强化学习之最基础篇

策略的优劣主要取决于长期执行这一策略的累积奖赏

从两种值函数的定义可看出，在V和Q之间进行转换

其中累计计算奖赏中的rt是指第t步获得的环境的立即奖赏

公式前面的E是对所有随机变量取期望（因为同一状态以概率选择不同动作，状态转移也有多种转移）

前面所介绍的都是强化学习的基本概念，下面将会介绍强化学习的一些方法和算法

7

强化学习之最基础篇

有了状态转移函数P和奖赏函数R就可以对策略进行评估

8

强化学习之最基础篇

顾名思义是对策略进行不断迭代，最后取最优的策略π

算法的累积奖赏函数为T步累积奖赏

第一行最后一项是对每个状态的状态值初始为0，为了对每个状态选择动作的概率均匀分配

9

强化学习之最基础篇

10

强化学习之最基础篇

我们可以看到蒙特卡罗算法是在完成一个轨迹后再更新策略的值估计，可以对其进行一定的优化，在每执行一步策略后就进行值函数的更新（下面的Sarsa）

第六行的从右到左推断，主要是为了存储空间的优化，从右边的n个值存储到左边的2个值，也就是已尝试的次数和最近平均奖赏

11

强化学习之最基础篇

名字叫撒尔沙，哈哈

1.对蒙特卡罗的一个改进，（在完成一个轨迹后再更新策略的值估计）改进为（在每执行一步策略后就进行值函数的更新），其他思路基本与蒙特卡罗相符

2.基于y折扣累积奖赏

3.公式（1）中的r是指第i次采样获得的全部累积奖赏，并不是一次立即奖赏

4.公式（3）带入（2）中的r（t+1）项

12

强化学习之最基础篇

13

强化学习之最基础篇

14

强化学习之最基础篇
所谓动机是坦克的前进、后退、转弯等
算法类似于Sarsa，做了一点点的改动

15

强化学习之最基础篇

16

强化学习之最基础篇

DQN：利用神经网络Neural Network对状态-动作对值函数的模拟

17

强化学习之最基础篇

强化学习之最基础篇

正式开始

1

2

3

标记延迟解释，比如目前状态是缺水，对于监督学习是有标记即动作浇水的，而强化学习没有此标记，之后会根据环境得到最好的动作浇水，此标记是环境反馈的，却是延迟的

4

智能体与环境交互的场景

5

状态空间分为无限和有限状态空间，动作空间有连续型的和离散型的动作，本次分享主要是基于有限状态空间的离散型动作的分享

从右下角的图中我们可以看出~强化学习(RL)的数据是序列的、交互的、并且还是有反馈

6

策略的优劣主要取决于长期执行这一策略的累积奖赏

从两种值函数的定义可看出，在V和Q之间进行转换

其中累计计算奖赏中的rt是指第t步获得的环境的立即奖赏

公式前面的E是对所有随机变量取期望（因为同一状态以概率选择不同动作，状态转移也有多种转移）

前面所介绍的都是强化学习的基本概念，下面将会介绍强化学习的一些方法和算法

7

有了状态转移函数P和奖赏函数R就可以对策略进行评估

8

顾名思义是对策略进行不断迭代，最后取最优的策略π

算法的累积奖赏函数为T步累积奖赏

第一行最后一项是对每个状态的状态值初始为0，为了对每个状态选择动作的概率均匀分配

9

10

我们可以看到蒙特卡罗算法是在完成一个轨迹后再更新策略的值估计，可以对其进行一定的优化，在每执行一步策略后就进行值函数的更新（下面的Sarsa）

第六行的从右到左推断，主要是为了存储空间的优化，从右边的n个值存储到左边的2个值，也就是已尝试的次数和最近平均奖赏

11

名字叫撒尔沙，哈哈

1.对蒙特卡罗的一个改进，（在完成一个轨迹后再更新策略的值估计）改进为（在每执行一步策略后就进行值函数的更新），其他思路基本与蒙特卡罗相符

2.基于y折扣累积奖赏

3.公式（1）中的r是指第i次采样获得的全部累积奖赏，并不是一次立即奖赏

4.公式（3）带入（2）中的r（t+1）项

12

13

14

15

16

DQN：利用神经网络Neural Network对状态-动作对值函数的模拟

17

渣渣一枚，大牛勿喷，可指导小弟

由于基本是截图，所以难免讲不清楚，很多细节没有解释（严格来说并非是分享，而更像是自己的学习的记录）

若有需求，可互相交流

相关推荐