[Python机器学习]强化学习笔记(嵩天礼欣老师mooc第三周)
强化学习
定义
举例:
目标:在每种状态下采取最优的动作。
学习目标:获得最优策略以使累计奖励最大(即score)。
马尔科夫决策过程
马尔科夫决策过程(MDP:Markov Decision Process)通常用来描述一个强化学习问题。
智能体agent根据当前对环境的观察采取动作获得环境的反馈并使环境发生改变的循环过程。
基本元素
值函数
值函数V表示执行策略π能得到的累计折扣奖励。
状态动作值函数 Q ( s , a ) Q(s,a) Q(s,a)表示在状态s下执行动作a能得到的累计折扣奖励:
最优值函数
最优控制
在得到最优值函数后,可以通过值函数的值得到状态s时应该采取的动作a: