【强化学习炼金术】李飞飞高徒带你一文读懂RL来龙去脉
强化学习炼金术 · 背景介绍(上)
欢迎来到《强化学习炼金术》第一讲。手摇芭蕉扇,支起八仙炉,再点上三昧真火。各位炼金术师,你们都准备好了吗?
在这一课里,我会跟大家说说强化学习的概念和目的,早期功不可没的宗师泰斗们,以及理解算法所需要的预备知识。不方便看视频的朋友们,请下拉阅读图文。
我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。
首先,我们重温一下,在心有麟熙导读里提到的【薄荷大法 MINT】。
- Motivation,确定到底要解决什么样的问题。
- 分为三小步,第一个是理解这个算法的精髓insight,然后把insight变成自己的直觉intuition,最后把intuition变成解决未来问题的inspiration。
- 最后才是technicality技术细节,我们会推一些公式或者看一些简单的伪代码。
其次,我们这门课将会从First Principle(第一原则)开始讲,意思是我会一步一步告诉大家那些很炫酷的看上去非常复杂的算法是怎么搭起来的。
再者,我们这门课是Self-contained(自成一体)。当然如果你感兴趣的话,可以阅读更多的材料,我会在以后的图文中加一些链接。每段视频控制在五到十分钟之内,这样大家听的话也不会分神。