Reinforce learning: Lecture 1 Introduction to Reinforcement Learning 学习笔记

强化学习是什么？

首先我们先从一个简单的例子开始，大家都知道，当我们刚出生时，对地球的重力规则肯定是一无所知的，但经过摸爬滚打，我们慢慢地学会了走路，这一过程可以简化表示为：我们和地面经过多次的交互，增强了我们的能力。

强化学习主要由以下及部分组成：

接下来看看他们一个时刻是如何交互的：
agent:

Enviroment:

agent 和 enviroment 的交互收敛意味着 reward 达到了饱和状态。

相比于其他深度网络，强化特性具有如下特性：

policy 策略，agent的行为即状态空间到动作空间的映射
- 确定过程： $π$ (s)
- 随机过程： $π$ (a|s)=P[ $A_{t}$ =a| $S_{t}$ =s]
value，价值，衡量当前状态的好坏。
- $v_{π} (s)$ = $E_{π} [R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + . . . | S_{t} = s]$
- $γ$ 为折扣因子，取值为0~1，表示的是未来几个时刻的reward对当前的状态的影响，也就是网络具有前瞻的功能。
model，对环境规则的表示
- 预测状态转移概率 $P_{s s^{'}}$
- 预测下一时刻的立即反馈 $R_{s s^{'}}^{a}$
exploition && exploration
- exploition 利用学到的模型做出选择
- exploration 尝试新的选择
prediction && control
- prediction 给出一个策略
- control 选出最优的策略
learning && plan
- learning
  - 环境规则未知
  - 交互进行学习
  - 提升策略
- plan
  - 环境已知
  - 直接运用model计算