终极算法【4】——联结学派
赫布律是联结主义的基石,联结主义相信知识存储在神经元之间的联结关系中。威廉.詹姆斯在其著作《心理学原理》中,阐明了连接的主要原理,这和赫布律十分相似,只是大脑活动被神经元取代,放电效率被兴奋的传播取代。
在符号学派中,符号和它们之间代表的概念之间有一一对应的关系。相反,联结学派的代表方式却是分散式的:每个概念由许多神经元来表示,而每个神经元又会和其他神经元一起代表许多不同的概念。符号学派和联结学派的另一个区别就在于,前者是按次序的,而后者是平行的。
第一个正式的神经元模型是由沃伦.麦卡洛克和沃尔特.皮茨于1943年提出的。这个模型看起来很像组成计算机的逻辑门。当“或”门至少一个输入开关打开时,“或”门开通;当所有输入开关打开时,“且”门开通。
麦卡洛克-皮茨神经元做不了的事情就是学习。为此我们需要对神经元之间的连接给予不同的权重,这就是所谓的“感知器”。感知器于20世纪50年代由康奈尔大学的心理学家弗兰克.罗森布拉特发明。在感知器中,一个正权值代表一个兴奋连接,一个负权值代表一个抑制性连接。如果其输入量的加权和高于界限值,那么会输出1;如果加权和小于界限值,那么输入0。通过改变权值和界限值,我们可以改变感知器计算的函数。当然,这种做法忽略了神经元发挥作用的很多细节,但我们想让这个过程尽可能简单点。
1969年,明斯基和西摩尔.佩普特一起出版了《感知器》一书,该书详细介绍了同名算法的缺点,还一一列举了该算法无法学习的内容。最简单的一个就是排斥——“或”功能(XOR)。如果它其中的一个输入量是对的,那么这就是对的,但如果两个都是对的,则是错的。
既然感知器只能学习线性界限,那么它就无法对XOR进行学习。而如果感知器无法做到这一点,就无法很好地模拟大脑学习的方法,也不是终极算法可行的备选项。
1982年,霍普菲尔德发现了大脑和自旋玻璃惊人的相似之处,自旋玻璃是深受统计物理学家喜爱的特殊材料。旋转玻璃其实并不是玻璃,虽然有一些玻璃的属性,其实是磁性材料。自旋玻璃是大脑的一个不现实模型。对于一个电子来说,自旋相互作用是对称的,而大脑中神经元之间的连接却不是对称的。
就相邻神经元而言,一个神经元只能处于两种状态:放电或不放电。但这忽略了一个很重要的巧妙之处。动作电位寿命短,电压会在一秒之内骤然升高,然后突然回到静息状态。而单个峰值对接收神经几乎不会有影响,为了唤醒接收神经,需要一连串连续不断的峰值。
神经元与其说是一道逻辑门,不如说是一台电压频率转换器。随电压而变化的频率曲线看起来像被拉长的字母S,它有很多叫法,比如逻辑函数、S形函数和S形曲线。
S形曲线作为一个独立的模型,不仅很重要,它还是数学的万事通。如果放大它的中段部位,你会发现它近似一条直线。很多我们认为是线性的现象,其实都是S形曲线,因为没有什么能够毫无限制地增长下去。
在感知器算法中,误差信号要么是全有,要么是全无:你不是收到对的信号,就是收到错的信号。反向传播,正如这个算法为人们所知的一样,比感知器算法要强大很多。单个神经元只能够对直线进行学习。给定足够的隐藏神经,一台多层感知器,正如它的名字一样,可以代表任意的复杂边界。这使得反向传播成为联结学派的主算法。
反向传播是自然及技术领域中非常常见的战略实例:如果你着急爬到山顶,那你就得爬找到的最陡的坡。这在技术上的术语为“梯度上升”或“梯度下降”。反向传播就是在多层感知器中有效做到这一点的方法:不断对权值进行微调,以降低误差,然后当所有调整失败时,停止调整。
在反向传播初次进入公众视线时,联结学派幻想能够快速掌握越来越大规模的网络,直到硬件允许的条件下,这些网络等同于人工大脑。结果却并非如此。掌握拥有一个隐含层的网络没问题,但在那之后,很快事情就会变得很困难。几层的网络,只有为了应用而精心设计的才能起作用。超出这个范围,反向传播就会瘫痪。
如果联结学派是过山车,那么对于最近的过山车转弯,贡献者之一的就是看上去普通的小设备,称为“自动编码器”。自动编码器就是一台多层感知器,其输出量和输入量一样。
叠加自动编码器不是唯一的深度学习算法,另外一种以玻尔兹曼机器作为基础,还有一种——卷积神经网络,则把视皮质模型作为基础。尽管取得了很大的成功,然而这些成果仍与大脑相去甚远。
联结学派的一些人高调称,反向传播就是终极算法,而我们只需扩大反向传播的规模。但符合学派对这种想法不屑一顾,他们指出一长串人类能做但神经网络做不了的事情。
如果人类具备的各种能力,大脑不经过调整突触就能掌握这些能力,那么这些能力从何而来?除非相信魔法,答案一定是:通过进化而来。
终极算法. [美] Pedro Domingos 著. 黄芳萍 译