PaddlePaddle飞桨强化学习7日打卡营-Day2

跟随百度6.19日开课的强化学习7日打卡营,入门强化学习。第二课是表格型方法求解RL问题。

 

PaddlePaddle飞桨强化学习7日打卡营-Day2

Day 2. 基于表格型方法求解RL

强化学习中的智能体agent通过和环境env交互,执行动作action获得反馈reward,逐步学习完善任务执行策略。

在某状态state下执行动作action,得到反馈reward;但复杂任务是一个序列决策任务,需要执行一系列action,以完成任务获得最高的最终收益,因此选择要执行的策略时需要考虑长期收益。

评价某状态s下执行动作a的综合预期收益(中长期收益、最终收益预期),需要考虑此步动作之后后续直到任务结束所有状态、动作分支以及对应的reward,通过全概率公式计算对于当前s下执行动作a的预期收益,此预期收益记做Q。

通过Q表格描述不同状态下执行不同动作对应的预期收益Q。

当环境模型未知时(状态转移函数未知),无法通过穷尽所有任务分支计算不同状态下不同动作的期望收益,只能通过不断与环境交互(采样),记录每一条从任务开始到结束的状态/动作路径(轨迹Trajectory),通过反推得到当前状态s的期望收益。

由于某状态s下执行动作a的后续路径有很多条,在更新此时的预期收益Q时,新交互轨迹计算得到的Q,与当前Q表格中记录的Q值存在偏差,以一定学习率学习这个偏差;通过不断交互更新Q表格,重复足够多学习轮数后,Q表格逼近真实Q值。

Sarsa:On-Policy方法,通过e-greedy方法生成action,以一定概率选择此状态下最大Q对应action或是随机action。

实现sample方法,根据当前状态obs输出action:

这里的随机动作实现了一定的探索效果

PaddlePaddle飞桨强化学习7日打卡营-Day2

learn方法:

更新Q表格中的Q值;需要获得下一步action参与更新,即此处的next_action。

PaddlePaddle飞桨强化学习7日打卡营-Day2

predict方法,输出当前状态下最大Q对应的action:

PaddlePaddle飞桨强化学习7日打卡营-Day2

QLearning:Off-policy方法,默认选择最大Q对应的action。

QLearning的learn方法没有next_action参与更新,默认使用最大Q值对应的action,因此直接以下一个状态对应的最大Q值开始学习。

PaddlePaddle飞桨强化学习7日打卡营-Day2