刷分拔群的AI为何在现实中啪啪打脸?
关注:决策智能与机器学习,深耕AI脱水干货
2018年初的头条新闻让人震惊:“机器人比人类更擅长阅读。”两个人工智能系统,一个来自微软(Microsoft),另一个来自阿里巴巴(Alibaba),在斯坦福大学(Stanford)广泛使用的阅读理解测试中得分略高于人类。
测试成绩是真实的,但结论是错误的。几个月后,斯坦福大学(Stanford)的罗宾•贾(Robin Jia)和珀西•梁(Percy Liang)证明,在进行这种特定测试时,“机器人”只比人类更胜一筹。为什么?因为他们接受了与测试相似的阅读训练。
当研究人员在每一篇阅读材料中加入一个无关紧要但令人困惑的句子时,人工智能系统一次又一次被蒙骗,得分较低。相比之下,人类忽略了红鲱鱼,做得和以前一样好。
语言学教授克里斯托弗•波茨(Christopher Potts)是斯坦福大学HAI学院的教授,专门研究人工智能系统的自然语言处理。
简而言之:人工智能系统非常擅长学习如何通过测试,但它们仍然缺乏人类在现实世界中导航所需的认知技能。人工智能系统就像高中学生通过练习旧试题来准备SAT考试,但电脑可以做成千上万的旧试题,并且可以在几小时内完成。然而,当面对难以预料的挑战时,他们往往不知所措。
Potts说:“对公众来说,这意味着你的系统在测试中表现非常好,但在现实世界中却会犯各种明显的错误。这是因为在现实世界中,无法保证新的例子会来自系统训练过的同类数据。他们必须应对外界给他们的一切挑战。”
Potts说,解决方案的一部分是接受“对抗性测试”,这种测试故意设计得让人工智能系统感到困惑和陌生。在阅读理解中,这可能意味着在一篇文章中添加误导、不合语法或无意义的句子。这可能意味着从绘画中使用的词汇转换到音乐中使用的词汇。在语音识别中,它可能意味着使用地方口音和口语。
当前的目标是获得对系统性能更准确和更现实的度量。Potts说,人工智能测试的标准方法“太慷慨了”。他说,更深层的目标是推动系统学习一些人类用来解决不熟悉问题的技能。它还能让系统发展出一定程度的自我意识,尤其是对自身局限性的自我意识。
Potts说:“系统学习的方式中有些是很肤浅的部分。”“AI拟合提取了数据中的特质关联和模式,但这些模式也可能会误导他们。”
例如,在阅读理解中,人工智能系统严重依赖单词之间的接近度。当被问及“圣诞老人”的别称时,一个阅读有关圣诞节的文章的系统很可能会回答“圣诞老人”。但如果这段话说“圣诞老人,他不是复活节兔子,也被称为圣诞老人。”对人类来说,复活节兔子只是一个小小的消遣。Potts说,对于人工智能来说,它可以从根本上改变他们对正确答案的预测。
对测量方法的反思
Potts认为,要正确衡量人工智能的进展,我们应该关注三个大问题。
首先,一个系统能否显示出“系统性”,并超越每个具体情况的细节进行思考?它能否学习到一些概念和认知技能,并将其运用到日常生活中?
Potts说,一个理解“Sandy爱Kim”的人会立刻理解“Kim爱Sandy”这句话,以及“小狗爱Sandy”和“Sandy爱小狗”这句话。然而,人工智能系统很容易就能判断出其中一个句子是对的,另一个是错的。这种系统性长期以来一直被认为是人类认知的一个标志,其研究可以追溯到人工智能的早期。
Potts说:“这是人类利用更小、更简单的(认知)能力,将它们以新颖的方式结合起来,做更复杂的事情的方式。”“这是我们用有限的个人能力创造能力的关键。然而,令人惊讶的是,许多自然语言处理系统在标准评估模式下表现良好,却未能通过这类系统性测试。”
第二个大问题,Potts说,是系统是否能够知道他们不知道的东西。一个系统是否可以做到足够的“内省”,从而意识到它在回答问题之前需要更多的信息?它能想出要什么吗?
“现在,这些系统会给你一个答案,即使他们的信心很低,”Potts说。“简单的解决办法是设置某种门槛,这样,如果系统的信心低于这个门槛,它就不会回答问题。”但这并没有给人一种特别老练或内省的感觉。”
Potts说,如果计算机能够识别出它所缺乏的信息并提出要求,那才是真正的进步。“在行为层面,我想要一个系统,它不只是一个固定的提问/回答设备,而是一个做人类的事情,识别目标和理解自己的局限性。”我想要它表明它需要更多的事实,或者它需要澄清模棱两可的话。人类就是这么做的。”
第三个大问题,Potts说,看起来很明显,但实际上并不是:人工智能系统真的能让人们更快乐或更有效率吗?
目前,人工智能系统主要是通过自动评估(有时每天数千次)来衡量它们在“标记”数据集中的数据方面的表现。
“我们需要认识到,这些评估只是我们希望AI实现的简介目标。没有人关心AI是如何对已经标记好的测试集上正确的标记数据的。因为事情全貌是通过开发AI系统,让人们实现更多更好的目标。”
正在降温的预期
尽管心存怀疑,但波茨表示,重要的是要记住,人工智能在从语音识别、自动驾驶汽车到医学诊断的各个领域都取得了惊人的进步。
“我们生活在人工智能的黄金时代,从某种意义上说,我们现在的系统正在做的事情,我们在15年前会说这是科幻小说,”他说。“但在自然语言处理领域,对于这究竟有多少是真正的突破,有一种更加怀疑的观点,更广泛的世界可能还没有得到这个信息。”
交流合作
请加微信号:yan_kylin_phenix,注明姓名+单位+从业方向+地点,非诚勿扰。