Reinforce learning: Lecture 1 Introduction to Reinforcement Learning 学习笔记
强化学习是什么?
首先我们先从一个简单的例子开始,大家都知道,当我们刚出生时,对地球的重力规则肯定是一无所知的,但经过摸爬滚打,我们慢慢地学会了走路,这一过程可以简化表示为:我们
和地面
经过多次的交互
,增强
了我们的能力。
强化学习主要由以下及部分组成:
- agent: 机器人
- enviroment:环境
- action:agent的行为
- reward: environment 对 action的反馈
接下来看看他们一个时刻是如何交互的:
agent:
- 根据当前的状态做出相应的动作,是
可观测
的状态量的集合
- 根据reward更新网络参数
Enviroment:
- 根据agent的action,计算reward
- 更新
agent 和 enviroment 的交互收敛 意味着 reward 达到了饱和状态。
强化学习特点
相比于其他深度网络,强化特性具有如下特性:
- 属于无监督学习,没有label
- 模型参数更新仅依靠于reward
- reward有延迟
基本概念
- policy 策略,agent的行为即状态空间到动作空间的映射
- 确定过程: (s)
- 随机过程:(a|s)=P[=a|=s]
- value,价值,衡量当前状态的好坏。
- =
- 为折扣因子,取值为0~1,表示的是未来几个时刻的reward对当前的状态的影响,也就是网络具有前瞻的功能。
- model,对环境规则的表示
- 预测状态转移概率
- 预测下一时刻的立即反馈
-
exploition && exploration
- exploition 利用学到的模型做出选择
- exploration 尝试新的选择
-
prediction && control
- prediction 给出一个策略
- control 选出最优的策略
-
learning && plan
- learning
- 环境规则未知
- 交互进行学习
- 提升策略
- plan
- 环境已知
- 直接运用model计算
- learning