强化学习基础知识
强化学习基础知识
1. 概念
强化学习四要素:状态(state)、动作(action)、策略(policy)、奖励(reward)。
强化学习就是考虑的是智能体(Agent)与环境(Environment)的交互问题:
这里是引用智能体处在一个环境中,每个状态为智能体对当前环境的感知;智能体只能通过动作来影响环境,当智能体执行一个动作后,会使得环境按某种概率转移到另一个状态;同时,环境会根据潜在的奖赏函数反馈给智能体一个奖赏。
— 周志华 《机器学习》
强化学习的目标是找到一个最优策略,使智能体获得尽可能多的来自环境的奖励。例如赛车游戏,游戏场景是环境,赛车是智能体,赛车的位置是状态,对赛车的操作是动作,怎样操作赛车是策略,比赛得分是奖励。在论文中中常用观察(Observation)而不是环境,因为智能体不一定能得到环境的全部信息,只能得到自身周围的信息。
学习开始时往往采用随机策略进行实验得到一系列的状态、动作和奖励样本,算法根据样本改进策略,最大化奖励。由于奖励越来越大的特性,这种算法被称作增强学习。
2. 马尔科夫模型
- 马尔科夫性:系统的下一个状态仅与当前状态有关,而与历史状态无关。此处的状态是指完全可观察的全部的环境状态