百面机器学习总结笔记(第十一章 强化学习)

百面机器学习总结笔记

第十一章 强化学习

百面机器学习总结笔记(第十一章 强化学习)

强化学习基础

场景描述
百面机器学习总结笔记(第十一章 强化学习)
知识点
强化学习 马尔科夫决策过程 价值迭代 策略迭代

问题1 强化学习中有哪些基本概念?在马里奥找宝藏问题中如何定义这些概念?

分析与解答

百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)
问题2 根据图11.1给定的马里奥的位置以及宝藏的位置,从价值迭代来考虑,如何找到一条最优路线?

分析与解答
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)
问题3 根据图11.1给定的马里奥的位置以及宝藏的位置,从策略迭代来考虑,如何找到一条最优路线?

分析与解答
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)

视频游戏里的强化学习

场景描述
百面机器学习总结笔记(第十一章 强化学习)
知识点
强化学习 Q-learning

问题 什么是深度强化学习,它和传统的强化学习有什么不同?
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)

策略梯度

场景描述
百面机器学习总结笔记(第十一章 强化学习)
知识点
强化学习 Q-learning
问题 什么是策略梯度,它和传统Q-learning有什么不同,相对于Q-learning来说有什么优势?

分析与解答
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)

探索与利用

场景描述
百面机器学习总结笔记(第十一章 强化学习)
知识点
强化学习 探索 利用

问题 在智能体与环境的交互中,什么是探索和利用?如何平衡探索与利用?

分析与解答
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)
百面机器学习总结笔记(第十一章 强化学习)