【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用

在新智元上一篇文章中,Jim Fan(范麟熙)介绍了强化学习的概念和目的。今天是《强化学习炼金术》Introduction第三讲。

在这一课里,Jim Fan会跟各位炼金术师们聊一聊游戏中的强化学习以及强化学习在现实生活中的应用。

一、游戏与强化学习的渊源

游戏是大家都喜欢的东西,而有一个群体尤甚:他们叫【程序员】【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用。所以在人工智能的发展历史中,游戏扮演着不可或缺的角色。

不方便看视频的朋友们,请下拉阅读图文【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用

【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用

【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用

IBM研究员Arthur Samuel,是世界上第一个把强化学习应用在一个主流的棋盘游戏上的人。他当时写了一个跳棋的引擎,但其实他的引擎并不是世界上最强的。在1989年到2007年之间,加拿大阿尔伯坦大学的团队,做了一个跳棋的人工智能 —— Chinook。把Chinook喻为跳棋之神毫不为过,因为它在真正意义上**了跳棋。换言之,就是不论你用什么策略,Chinook永远不会输。这是可以在数学上被验证的。

我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。

根据Chinook的分析,在跳棋中不论你是先手或是后手,只要有一个完美的策略,永远双方都会打成平手。也就是说,跳棋被证明是一个真正意义上的零和博弈。

【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用

下一位出场的,也是IBM的研究员 Gerald Tesauro。他最著名的成就,就是写了一个能够超越人类Backgammon世界冠军的人工智能。Backgammon是一个有一定随机性的掷骰子的概率游戏。Tesauro的引擎叫做TD-Gammon,TD就是刚才说到的时间差学习。

在这边要声明一下,为什么我们不提IBM的Deep Blue,即当年击败国际象棋世界冠军卡斯帕罗夫的深蓝国际象棋引擎。其实Deep Blue几乎没有用到任何机器学习,更别提强化学习。Deep Blue是一个规则系统,它的团队当时请了很多国际象棋大师过来帮他们手写那些象棋的规则或者策略,所以它并不是一个学习系统。

原文链接