强化学习

定义

[Python机器学习]强化学习笔记（嵩天礼欣老师mooc第三周）

举例：
[Python机器学习]强化学习笔记（嵩天礼欣老师mooc第三周）

目标：在每种状态下采取最优的动作。
学习目标：获得最优策略以使累计奖励最大（即score）。

马尔科夫决策过程（MDP:Markov Decision Process）通常用来描述一个强化学习问题。
智能体agent根据当前对环境的观察采取动作获得环境的反馈并使环境发生改变的循环过程。

[Python机器学习]强化学习笔记（嵩天礼欣老师mooc第三周）

值函数V表示执行策略π能得到的累计折扣奖励。

[Python机器学习]强化学习笔记（嵩天礼欣老师mooc第三周）

状态动作值函数 Q ( s , a ) Q(s,a) Q(s,a)表示在状态s下执行动作a能得到的累计折扣奖励：

[Python机器学习]强化学习笔记（嵩天礼欣老师mooc第三周）

[Python机器学习]强化学习笔记（嵩天礼欣老师mooc第三周）

在得到最优值函数后，可以通过值函数的值得到状态s时应该采取的动作a：

[Python机器学习]强化学习笔记（嵩天礼欣老师mooc第三周）