学习笔记(02):决胜AI-强化学习实战系列视频课程-马尔科夫决策过程
立即学习:https://edu.****.net/course/play/4916/88697?utm_source=blogtoedu
马尔科夫决策过程
能用马尔科夫过程的前提条件:
1. 能够检测到理想的状态
如:alphaGo知道什么样子是赢
2. 可以多次尝试
3. 系统的下个状态只与当前状态信息有关,耳语更早之前的状态无关。在决策过程中还与当前采取的动作有关。
马尔科夫有5个元素构成;
S states 表示状态集合
a, actions 表示一组动作
P probability of action transformation
R reward function, 表示agent采取某个动作后的即时奖励
y:折扣系数,意味着当下的reward要比未来反馈的reward更重要
状态价值函数:
Bellman方程:
当前状态的价值和下一步的价值及当前的奖励(reward)有关
价值函数分解为当前的奖励和下一步的奖励