Reinforce learning: Lecture 1 Introduction to Reinforcement Learning 学习笔记

强化学习是什么?

首先我们先从一个简单的例子开始,大家都知道,当我们刚出生时,对地球的重力规则肯定是一无所知的,但经过摸爬滚打,我们慢慢地学会了走路,这一过程可以简化表示为:我们地面经过多次的交互增强了我们的能力。

强化学习主要由以下及部分组成:

  • agent: 机器人
  • enviroment:环境
  • action:agent的行为
  • reward: environment 对 action的反馈
    Reinforce learning: Lecture 1 Introduction to Reinforcement Learning 学习笔记

接下来看看他们一个时刻是如何交互的:
agent:

  • 根据当前的状态St做出相应的动作,St可观测的状态量的集合
  • 根据reward更新网络参数

Enviroment:

  • 根据agent的action,计算reward
  • 更新St

agent 和 enviroment 的交互收敛 意味着 reward 达到了饱和状态。

强化学习特点

相比于其他深度网络,强化特性具有如下特性:

  • 属于无监督学习,没有label
  • 模型参数更新仅依靠于reward
  • reward有延迟

基本概念

  • policy 策略,agent的行为即状态空间到动作空间的映射
    • 确定过程: π(s)
    • 随机过程:π(a|s)=P[At=a|St=s]
  • value,价值,衡量当前状态的好坏。
    • vπ(s) = Eπ[Rt+1+γRt+2+γ2Rt+3+...|St=s]
    • γ 为折扣因子,取值为0~1,表示的是未来几个时刻的reward对当前的状态的影响,也就是网络具有前瞻的功能。
  • model,对环境规则的表示
    • 预测状态转移概率 Pss
    • 预测下一时刻的立即反馈 Rssa
  • exploition && exploration

    • exploition 利用学到的模型做出选择
    • exploration 尝试新的选择
  • prediction && control

    • prediction 给出一个策略
    • control 选出最优的策略
  • learning && plan

    • learning
      • 环境规则未知
      • 交互进行学习
      • 提升策略
    • plan
      • 环境已知
      • 直接运用model计算