中国人工智能学会通讯——大数据与认知智能

今天的主题是机器学习和人工智能。首先讲机器学习，刚刚铁岩给了很好的介绍。如果用从处理数据集x和目标y的角度对机器学习进行简单分类，可以大致归纳为以下三点：第一，对于Supervised Learning，学习的核心是从x到y的映射。如果目标y是离散的，它就是分类问题，例如人脸识别就是一个机器学习的分类问题；如果这个y是连续变量，那就是回归问题，比如对雾霾的预测就利用了回归的方法。第二，对于Unsupervised Learning，只有一个x，没有
y。第三，增强学习处于监督学习和非监督学习之间。

我毕业那会儿没有做自然语言理解，后来我做了一些图像，再之后在IBM我做文本分析，无数人做了一生都在研究数据集（x）。做图像的，我希望能抽出一个跟形状不变的特征，这个是很难的一件事，比如我怎么能更好地描述一个图片上的对象，我怎么抽出自然语言中语义的特征。我们常用的3 000个汉字就构成了纷繁的应用，我们就是想在这其中抽取一个非常有意义的特征。有了特征以后你会看到特征还有层次，对于不同的自然语言处理的任务，我从最基本的分词开始，到Shallow Parser, 再到Deep Parser等等，利用机器学习的工具来构建数据集到目标（x到y）的映射，并通过不断学习使得系统能够更好地适应数据和人的行为。在实际应用中，这个任务其实比较难。因为往往x并没有真正抓住这个问题本身的信息，对于任务本身，x很
可能是一个随机数。

中国人工智能学会通讯——大数据与认知智能

大数据是我们最近谈到特别多的话题，其实大数据的话题比人工智能热得更早，如果往前推一推，你会发现现在很多的算法都是10年、20年前的人发明的。比如现在的循环神经元网络，大概在1997、1998年我进实验室的时候，我们师兄弟就开始用循环神经网络，只不过那个时候的机器计算能力小、数据量很少，做出来的效果很差。但是同样一个算法在一个更大的数据
量上，在有标注的数据上，即使GPU的加速没有做任何更改，现在甚至都可以做到比人做的还精确的结果。我记得原来抽特征词都是做辞典，希望这个辞典做得很好，再说词语之间的关联，中文中构建了词邻，人工构建的特征是非常主观的，我们让循环神经网络（LSTM）去训练古诗词，自然就把很多的韵律关联和词与词之间的关系都抽取到了。所以实际上机器学习在过去
一段时间的突破，恰巧都不是机器学习领域的人实现的，而是一方面做计算机的底层系统架构，构建了很多GPU的Cluster，让计算的能力提高了；另一方面是大数据，在座的你我对这个事情都有很大的贡献。

这有一段视频是IBM在2011年在《危险边缘》节目中与最优秀的人类世界冠军进行问答比赛。我们知道在开放领域问答做的好是非常难的，难就难在数据集的抽取。你看到的只是一个个问题，但事实上答案是在纷繁的大知识库里，是世界上存在的各种各样的知识。除了在基础算法上的改进以外， Watson系统用了增强学习的方式，系统中的各个算法模块存在不同的参数组
合，我让这个机器试着采用不同参数来回答问题，因为有几十年积累的真实数据，这样可以不断地调制不同的参数，得到一个现实中最优的参数组合。我们系统的另一个思路是将答案寻找同证据验证分成两个独立的过程，两部分采用不同的数据源和算法。例如，如果你问：“中国最好的自然语言理解的专家是谁？”我说：“是孙茂松老师。”如果你想验证这个答案是否可靠，你就不能再问我了，你可能会去问另外一个人，如果两个答案一致，答案的置信度就非常高。IBM经过6年的迭代研发，系统回答问题的正确率最后做到90%多。最近Watson已经逐渐服务于更多的技术领域，它是一个开放的云服
务环境，你可以看到相关的技术内容并尝试上面的应用，很多都是跟机器学习相关的，大家感兴趣的话可以登录到IBM Cloud上去看看。

中国人工智能学会通讯——大数据与认知智能

这里有另外一个事实，我想大家也都知道，深度学习在图像和在语音识别领域已经到达了人的识别精度。

中国人工智能学会通讯——大数据与认知智能

但是这样对比或是不公平的。为了训练深度学习网络，你给系统看了几千万张图片，也给它看了至少几千张、上万张的狗的照片，系统才实现了同类图片上的识别率。但是你观察没有？如果你让小朋友去看会怎样？我的两个孩子非常小，我有时候会从AI角度看看他们是怎么成长的。让小朋友认识小狗，可能不需要看那么多图片，给小朋友的识图卡片一般是很抽象的卡通图，那种很有艺术感、很温暖的小狗照片，之后当你拿现实中的一条小狗问
小朋友这是什么，你会发现他就认识小狗了，这个场景也说明人工智能还有很长的路要走。

关于机器学习，我们也可以从能耗的角度来看。最近，李世石和AlphaGo的
比赛是非常令人激动的。我有一次参加一个论坛，恰巧有中国棋院领队在场，她说在那场比赛的中计算机有上百颗GPU，每GPU都是好几百瓦，人的大脑是20瓦，这两个在功耗上是完全不匹配的比赛。这从另外一个角度对我们提出一个新的问题，这个问题是我们能不能构建一个在功耗上同生物体可以类比的智能系统。在一些机器智能的应用场合中，这很重要，因为我们很多的移动智能系统（比如智能眼镜）不可能依赖一个很庞大的电池。IBM
在这个维度上也有很多的研究，我们希望在整个计算机的系统架构，从芯片、从很多角度来让它变得更像我们人脑的思维，能让它的功耗更低。这是两年前的一个结果，TrueNorth芯片可以做到实时的目标检测和跟踪，70 mW，同现在的GPU和CPU相比能耗降低了好几个数量级。

中国人工智能学会通讯——大数据与认知智能

另一方面，我们看到大数据和人工智能正在改变很多行业。比如说医疗行业，有很多人研究治疗路径优化和药物选择。今天我们的医学报告、电子病例等医学数据越来越电子化，这也给我们带来一个机会就是可以把所有这些数据以及医学文献，让机器学习一遍。机器在某些方面学的可以比人更快，尤其可以不断地更新自己的知识，辅助医生进行治疗决策。IBM在做的法律文档的理解也是一样的，中国、美国、欧盟的法律体系是不一样的，当有一
个官司需要你去理解多国家的法律时，需要一群不同法律背景的人，可能还说着不同的语言，协调上问题很多。但如果是机器做的话，可以很快地学习大量案例和法律、法规。现在新的机器学习技术把原来至少七八个人的团队做很多年的事情，变成现在差不多一个人一个月就做出来了。这是人工智能带来的机遇和挑战。

中国人工智能学会通讯——大数据与认知智能

最后总结一下，我们发现整个IT业，特别是人工智能技术发展得很快。这两年可能到达了一个变革点，这个变革点在于我们开始希望机器有更好的学习能力，希望机器和人在一起的成长。这一轮技术的提升很多是基于大数据的，通过对大数据里面的学习总结，去抽取更多的经验和规则，帮助人来做更好的决策而不是取代人脑，这是IBM对于AI的另一种理解，Augemented Intelligence，就是增强智能。

谢谢！

（本报告按现场速记整理）

中国人工智能学会通讯——大数据与认知智能

IBM 中国研究院研究总监，大数据及认知计算研究方向首席科学家。中国中文信息学会理事。目前兼任南开大学兼职教授、上海交通大学 APEX 实验室客座教授、IBM 大中华区技术专家委员会主席。在 IBM 中国研究院先后参与文本分析、企业搜索、元数据管理、数据集成、社会化计算及信息可视化等方面的研究。

中国人工智能学会通讯——大数据与认知智能

相关推荐