百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记
第十一章 强化学习
强化学习基础
场景描述
知识点
强化学习 马尔科夫决策过程 价值迭代 策略迭代
问题1 强化学习中有哪些基本概念?在马里奥找宝藏问题中如何定义这些概念?
分析与解答
问题2 根据图11.1给定的马里奥的位置以及宝藏的位置,从价值迭代来考虑,如何找到一条最优路线?
分析与解答
问题3 根据图11.1给定的马里奥的位置以及宝藏的位置,从策略迭代来考虑,如何找到一条最优路线?
分析与解答
视频游戏里的强化学习
场景描述
知识点
强化学习 Q-learning
问题 什么是深度强化学习,它和传统的强化学习有什么不同?
策略梯度
场景描述
知识点
强化学习 Q-learning
问题 什么是策略梯度,它和传统Q-learning有什么不同,相对于Q-learning来说有什么优势?
分析与解答
探索与利用
场景描述
知识点
强化学习 探索 利用
问题 在智能体与环境的交互中,什么是探索和利用?如何平衡探索与利用?
分析与解答