人工智能 未来已来
【导读】大学有位朋友非常喜欢用今日头条看新闻,久而久之发现,今日头条开始只给他推荐喜欢足球队的正面消息, 不免让他觉得有点后怕。这也正是人工智能的神奇之处,通过归纳用户习惯、喜好等,实现智能的定向精准推荐。而2018年港珠澳大桥的自动驾驶秀,又是否让你惊讶呢?智能助理,如苹果Siri、百度度秘、Google Allo、微软小冰、亚马逊Alexa等智能应用,正在为每位用户量身定制私人秘书;智能出行,如滴滴或优步(Uber),人工智能算法不但会帮助司机选择路线、规划车辆调度方案,而将来的自动驾驶技术还将重新定义智慧出行、智慧交通和智慧城市;电子商务,如淘宝、亚马逊等网站,利用人工智能技术为你推荐最适合你的商品等等,可以毫不夸张地说当今的社会遍布人工智能的身影。
那究竟什么是人工智能呢?维基百科给的定义:人工智能是有关“智能主体(Intelligent agent)的研究与设计”的学问,而“智能主体是指一个可以观察周遭环境并做出行动以达致目标的系统”。神经科学家把人工智能的工作原理分为以下三部分:
- Perception through a multi-dimensional datasource(如果我给你一个小物体,问你是什么,你会用眼睛看、手摸、鼻子闻、耳朵听,以便获得关于这件物体的任何信息)
- Pattern recognition within the data set referred in step 1 above(你以前可能看过,也可能没看过这个物体。你的脑海中已经构建了一系列模式,以便对你的生命中遇到的数千个物体进行分类,如果以前看过它,那么这个模式技术将帮你识别、猜测出这个物体是什么,如果你以前没见过,那么可能就无法认出它来)
- Decision making within the given context(当你回忆起你在步骤2中的记忆后,就进入了逻辑论证和评估的过程之中。作为一个人类的思维,我们倾向于合理化事物,并用我们所说的直觉(“gut feeling”)感性地作出决定)
总的来说,人工智能主要通过综合以上模块的系统,能根据对环境的感知,做出合理的行动,并获得最大收益的计算机程序。人工神经网络,更平易近人的称呼是深度学习,正在从其传统的保留地(目标识别、模式识别等)走向传统上与标准人工智能相关的领域(推理、逻辑等)。人类知识生成来自于我们将碎片组合起来的过程,而我们推导给定的答案也是通过将碎片化的信息构建到一起。更确切来说,在深度网络上,我们有两种实现组合性(compositionality)的方式。其中一种可被看作是一种并行的方法,而另一种则是序列式的方法。人类可以并行地选择不同的概念来进行组合,然后以非并行的方式来描述世界。这就是分布式表征(distributed representation)的理念,这意味着每一个对象都会被许多属性(这在神经网络中被称为特征(feature))描述,而这些属性配置的数量将会随属性数量的增长而指数式地暴增。世界很复杂,要让机器如人般理解世界,就需要给机器描述大量的知识。为此,需要通过大量的数据来训练机器,从而使其能够以一种类似于人类能力那样微妙的方式来进行理解,因此关于人工智能的表征如公式[1]所示:
人工智能=深度学习+大数据 【1】
目前的深度学习主要是建立在大数据的基础上,即对大数据进行训练,并从中归纳出可以被计算机运用在类似数据上的知识或规律。大数据,是指基于大规模的数据建立有效的模型和工具,进行数据分析以及分析基础上的数据挖掘和智能决策。
深度学习中深是指网络的深度,而人工神经网络可以非常浅。人工神经网络中最小也最重要的单元叫神经元,与生物神经系统类似,神经元相互连接并具有强大的处理能力。
每个神经元都有输入连接和输出连接。这些连接模拟了大脑中突触的行为。与大脑中突触传递信号的方式相同——信号从一个神经元传递到另一个神经元,这些连接也在人造神经元之间传递信息。每一个连接都有权重,这意味着发送到每个连接的值要乘以这个因子。再次强调,这种模式是从大脑突触得到的启发,权重实际上模拟了生物神经元之间传递的神经递质的数量。所以,如果某个连接重要,那么它将具有比那些不重要的连接更大的权重值。由于可能有许多值进入一个神经元,每个神经元便有一个所谓的输入函数。通常,连接的输入值都会被加权求和。然后该值被传递给**函数,**函数的作用是计算出是否将一些信号发送到该神经元的输出。
如果我们观察自然界,可以发现能够“学习”的系统都具有高度适应性。在获取知识之时,这些系统利用外界的输入,修改其已经获得的信息,或者修改其内部结构。更确切地说,人工神经网络基于输入和期望的输出来改变连接的权重。
在实践中,我们会收集一些数据,并基于此创建预测、分类或进行其他处理,这个数据集则被称为训练集。事实上,根据训练期间的行为和训练集的性质,我们可以将学习分为如下几类:
- 无监督学习 ---训练集仅包括输入。网络试图识别相似的输入并把他们分类。这种学习受生物学驱动,但并不一定适合所有问题。
- 强化学习 --- 训练集包括输入,但是在训练期间也会给网络提供额外的信息。 内部机制是一旦网络计算出某个输入的输出,我们就提供信息以表明计算结果是正确的还是错误的,并且可能表明网络错误的性质。
- 监督学习 --- 训练集包括输入和期望的输出。通过这种方式,网络可以检查它的计算结果和期望输出相不相同,并据此采取适当的行动。
人工智能面临的三大难题
深度学习崛起带来人工智能的春天,但研究人员仍面临着各种问题:缺乏足够的数据来训练深度学习系统;无法制造同时处理多项任务的人工智能;不知道如何让这些系统运转起来。具体表现在以下三方面:
- 先收集数据,然后获得人工智能(人工智能需要获取数据进行训练以感知世界,但往往忽略到底需要多少数据。仅仅获取人类用于理解和识别所需的信息量是不够的,这些系统需要数百乃至数千倍这样的信息以供训练)
- 人工智能必须能够同时应付多任务处理(深度学习面临的另一个重要问题:事实上,目前的系统几乎都是一根筋。要解决这个问题,我们可能会需要一种先进神经网络,它可以整合一些不同的深度学习系统,作为接收者,为它们传递信息)
- 只有你能展示你的工作方式的时候才是真正的智能(神经网络通常对观察者来说是难以理解的。尽管我们知道它们是如何创建的和输入它们的信息,但它们得出特定决策的原因却通常是无法解释的)