不同于Google,格灵深瞳要做自然世界的搜索引擎
科技界的顶级盛宴——2015腾讯WE大会昨天在北展剧场成功举办。在历史感与未来感交织的舞台上,震撼人心的科学创造,颠覆认知的伟大发明,以及令人血脉喷张的思想碰撞,所有的这一切都让这场大会成为了今年独一无二的盛宴。
格灵深瞳作为下午探索场唯一的一家中国公司,何搏飞作为探索场唯一的一位中国演讲嘉宾,在现场作了题为《自然世界的搜索引擎》的主旨演讲。在他看来,格灵深瞳未来要做的是一家真正意义上的大数据公司。不同于虚拟网络世界,格灵深瞳要打造的是自然世界的搜索引擎。
何搏飞的核心观点包括:
以下是演讲全文
↓
大家好,今天特别高兴来跟大家分享。今天我的主题是:自然世界的搜索引擎。我想说的搜索引擎,我们在座的每一个人都不陌生。它可能是我们平时用的最多的互联网工具,它可能使得我们拥有一种能力,可以让我们无论身在何处,都能获取互联网上已经存在的信息。对我来说也是这样,我第一次上网就是用搜索引擎。
我想问一问在座的有多少人知道这是什么声音,知道的请举手好吗。哇哦,你们暴露年龄啦!刚才我听到这个声音放出来的时候,前排有几个看起来很年轻的朋友非常的惊恐,他们好像在看音响,以为是设备出问题了。那个时候上网就是这样,这个叫调制解调器,也叫“猫”。连网的时候就是会发出这样怪异的声音,网速也非常的慢。18年前,那个时候是1997年,我跟大家回忆一下97年的互联网是什么样的。
这个是Google在97年的样子。Google一直到98年才成立,所以97年的时候Google还是Stanford的一个实验项目。但是今天我们对Google都很熟悉,我们每天都使用它,所以今天Google长这样对吧?
我非常清楚地记得,18年前我第一次上网。我打开了一个网页,那个时候的搜索引擎是雅虎,我输入了一个人的名字。我点击了一张照片,那时候网速非常非常地慢,每秒钟大概就几K这样子。所以那张照片一点一点一格一格在我面前呈现出来。照片从模糊变得越来越清楚,我突然发现我的手心开始出汗,我的心跳开始加速,我的脸涨得通红,我的目光无法从屏幕移开……你们想歪了啊!画面上出现的是他——Michael Jordan。
18年前,在我的家乡,如果我想买一张Michael Jordan印刷质量非常低劣的海报,我需要倒几趟公共汽车去一个特定的地方才能买到。在那一刻,我真的特别激动,因为我突然意识到可能我的生活将永远地被改变,我可以获取任何我想获取的信息,但是真的是这样的吗?我们看看今天,比如说今天当我们去搜索“WE大会”的时候,我们得到的可能是这样的内容。
当然,我在后台的时候,他们告诉我,如果用腾讯的搜索,可能出来的结果会多一点儿。但依然,当我们搜索“WE大会 2015”的时候我们看到的可能是这样的内容,但是我觉得其实挺不公平的,因为我从大概半年多以前就跟WE大会的团队开始接触,在这个过程中,我们有很多的反复,我们有很多的讨论,有很多有价值的有意义的东西,包括我也知道他们为了今天的大会准备了非常多的时间,但是所有的这一切最后只有最终的结果呈献给了大家。
我们大家想一想,我们每一天从早上起床到晚上睡觉,我们每一天会发生多少事情,我们会去很多很多的地方,我们会跟很多很多的人说话,我们会做很多很多的事情,但是所有的这一切真正被记录和存储下来以及最后被我们能够使用的数据量只有不到1%。所以,今天我们所能够获取的数据量其实是非常小的,我们经常说信息爆炸、信息过载,甚至大数据都已经变成了一个不再性感的词。但是我们真的拥有大量的数据吗?不是的,我刚才说了,我们生活中有那么多的事情并没有形成数据,为什么?因为今天的数据是人为生成的,就像我们刚才看到WE大会的这些内容,我们不可能要求每一个人把我们所做的事情都记录下来,所以说我们需要一种方式,把自然世界正在发生的一切实时地无缝地转化成数据。
而且光是数据还不够,我们都知道大量的繁杂的数据对我们来说是没有意义的,我们需要对这些数据进行重构,我们需要对这些数据进行整理,让它变成信息。信息也依然不够,最终我们希望从这些大量的信息当中,获取Insight——洞见。
我们需要计算机来为我们自动地做这件事情,我们需要计算机能够自动地感知我们这个世界。
其实刚才有几个talk都谈到了视觉,都谈到了触觉,就是这样。我觉得未来我们的机器人可能不仅是像人形,不仅是像小狗,像宠物,我觉得未来所有东西,我们坐的椅子,我们拿的水杯,我们的鞋,我们的衣服,我们所有的一切都可能是机器人。只要他们拥有感知能力,只要他们能够拥有计算能力,他们都能够是机器人。所以说,如果这种感知能力在我们的生活中无处不在的话,那么有一天我们就真的可以把我们这个世界所发生的一切转化成数据。
既然我们谈到感知,我们就来看看我们人是怎么感知的。我相信大家对这个概念不陌生,刚才Tony也提到,我们人有五种感知能力:视觉、听觉、嗅觉、触觉和味觉。这五种感知能力是我们人认知和理解世界最主要的方式,大家知道吗,我们的大脑当中有几十亿个神经元,做且只做一件事情,就是去处理这些感知信息,但是所有的这些神经元,有80%只做一件事,就是去处理视觉信息。
我相信不用我多说,视觉信息是丰富的,是复杂的。比如说当我们人看到这样一张图片的时候,我们的眼睛可以自动地在上面寻找那些我们感兴趣的内容,可能是穿过的行人,甚至对女士来说可能是身上穿的衣服,可能是路边的一个广告牌,可能是一个汽车的型号,包括它行驶的方向,所有的这一切对我们人类来说,仅仅在零点零几秒之间就可以发生。
我们人能够通过眼睛看懂这个世界,是因为我们有两个特别了不起的器官。一个是人眼,我们的眼睛如果把它比喻成一个数码相机的话,它可以自动变焦,它可以自动调整白平衡,它可以自动调整景深,甚至它还有免费赠送的夜视功能。我们知道今天我们市面上销售的最好的摄录设备对视频保存的最高分辨率是4K,那换算下来差不多就是900多万像素,大家知道我们人眼在近距离的分辨率是多少吗?是五亿七千六百万像素,差不多是24K,所以我们经常说亮瞎我的24K钛合金狗眼,这个是有科学依据的。
我们不仅有一个了不起的眼睛,这个眼睛看到的是一个三维的世界,我们还有一颗了不起的大脑。大家知道这个是什么吗?
这不是一幅梵高的画,这是哈佛大学的一个项目,它叫Brainbow。大家知道rainbow是彩虹,这是Brainbow。他们把一平方毫米的脑皮层通过这样的形式展现出来。大家看到的这些,每一个点、每一条线都是神经元和突触,大家可以想象一下,在我们的大脑里面有多少这样的神经元。有的时候我们可能会觉得说,诶~今天计算机其实蛮聪明的呀,好多计算机能做的事情我都不能做,它比我做的更快、更好、更稳定。为什么它不能代替我们来看懂这个世界呢?
问题就在这儿,今天计算机可以在很多事情上比我们人做的更好,比如说运算,它可以比我们做得更快、更稳定,我相信大家可能都看过一个节目叫《最强大脑》,我偶尔看过。有的时候有一些让我们叹为观止的东西,比如说开一个多少位的方根,这种事情可能对人类来说非常非常困难,但是对电脑来说,非常地容易。但是有的事情却对电脑来说非常地难,比如说可能你们每一个人都可以在十几年以后,一眼就能在人海中认出那个当年的同桌。他可能已经胖了20多斤,啤酒肚,秃头,但是你依然能够认出他来,这件事情电脑绝对做不到。
所以,说了这么多,我们会知道我们人可以看懂这个世界是多么地不容易。那么我们有没有可能让计算机也拥有视觉呢?我们有没有可能让计算机跟我们人一样看懂这个世界呢?我们做了这样几个尝试,大家可能也都知道计算机有很多的眼睛。他们可能是我们的手机,也可能是遍布世界各地的安防监控摄像头。他们是眼睛吗?不是。因为他们所做的唯一的一件事情,就是把他们看到的记录下来,给人来看。
这是一个非常典型的安防监控的场景。大家想象一下,如果是你,在一个中控室里看到这样一个画面,而且上一次班八个小时十个小时,你能看到的是什么。你能够认识到这里面发生了什么吗?你能够看出这里面其中有哪些图片有异样吗?不可能。
谈到安防监控行业,安防监控有一个很有意思的数据,就是全世界有一半的硬盘都卖给了安防监控行业。所以我们可以想象一下全世界有多少数据是这样的死数据,他们被存储下来,但是永远地沉睡在那里,一点用都没有。
大家可以看到,我们尝试着在一个封闭的空间里,在几十个人互相遮挡互相运动的情况下去理解他们运动的速度,理解他们运动的轨迹,一会儿这些应用我会告诉大家我把它用在什么地方。我们可以拥有这样一种能力,我们不在乎有多少遮挡,我们也不在乎这里面具体有多少人,但是我们可以非常清楚的看到这里发生了什么。大家看到左下角,我们把它叫做上帝视角。
这张图是一个很常见的中控室里的图,这可能就是我们北展剧场的周边。大家想象一下,如果这个时候发生了一个事件,一个小偷正在逃跑,你可能刚刚开始看到的是他在左下角出现,下一个镜头他就出现在右上角的某个画面里面,你完全不知道这里发生了什么。这就是我说的,仅仅是理解这样的数据是不够的,我们应该产生Insight。
所以,我们的系统可以把我们自己的传感器无缝地连接起来,我们不需要戴任何设备,也不需要wifi,因为我们可以让你实时地看到在场景上每一个人是怎么运动的,哪里有人群的聚集,人在往哪个方向移动。大家可以想象一下,如果这是一个零售店,我们可以做什么,如果这是一个机场,我们可以做什么,如果这是我们自然生活中的任何一个场景,这是一个教室,这是一个医院,我们可以做什么。
另外,我们也尝试着去理解人的行为。这个动作都是人平时不太会做的,我不知道在座的有多少人平时动作幅度会这么大。但是我们可以非常快速地去理解和追踪人肢体的动作。
在这儿,我想讲一讲我们在路上做的事情。这段视频是我们自动驾驶的实验车在北京五环上采集到的数据。大家知道自动驾驶最大的障碍不是别的,就是视觉。要控制车的方向、刹车、油门,这都很容易,告诉车从A开到B,这也不难。最难的是让车像我们人一样理解车道上发生了什么。前面的车离我有多远,车道线在哪,我这个时候是不是可以变道,是不是可以超车,有没有别人来超车,有没有人加塞儿,有没有人会撞到我。大家可能知道Google今天也在做自动驾驶汽车,Google的那套系统,那辆车可能8000到1万美金,但是顶在头上的Lidar12万美金。所以我个人觉得那一套系统应用在实际的场所还有很远很远的路要走。我们希望用几千块人民币的价格让每一辆车都有这样的视觉能力。
接下来我给大家看一段现场的demo。我希望在这个demo里面给大家展示我们人在自然空间里如何跟虚拟的世界去交互。我们在会场的外面搭了一个临时的展台,大家看到我的同事一会儿会进入这个区域里面,跟这个区域里虚拟的物件进行互动。
他走进来,他第一次穿过了一道门,然后他伸手去碰了在虚拟空间中的一个球,这个时候他又走进了一个四方形的三维立体空间区域,这个时候他又去触碰了另一个球。
虽然说这个demo可能看上去并没有那么美观,或者说也没有我们想象中的那么漂亮,但是我们是希望大家可以去想象。在这个演示里,我们没有用任何的头盔,没有用任何的眼镜,我们实实在在地就可以跟我们周边的空气,跟我们周围的虚拟世界发生交互。大家可以想一想,如果在我们家里,你可以把这个球设想成你空调的开关,或者说另外一个球是你的电灯开关。每天晚上你躺床上以后,天这么冷,你不想再下床关开关的时候,只需要伸手碰碰就可以。这里面其实还可以有很多的应用,在这里我就不再过多地展开。
我希望我们能够有一种能力,去给现实世界和虚拟世界之间打造一个桥梁,今天格灵深瞳把我们的技术正在以及即将应用在很多很多的领域。
比如说我们可能在机场去理解是不是有无人看管的行李。
我们可能在零售店里去给一个零售店的店主,让他拥有店里的数据,让他知道什么是转化率,让他知道今天一天之内有多少人经过了这个货架,有多少人拿起了这个商品,后来又把它放了回去。
我们可能在人潮涌动的街头,去观察是否有人有异常的行为,是不是有暴力的事件可能会发生,守护我们的安全。
我们可能在路上,去看着我们的公路,不仅仅是去看是否拥堵这么简单的事情,我们可以清楚地告诉你,当你绿灯通过一个十字路口的时候,有多少可能另一个方向会有一个急速行驶的车无法在红灯停下来拦腰撞上你。
我们可以在路上去理解一个车辆的属性,不管它是什么样的车牌,它是套牌也好,它是有遮挡也好,我们可以很快地知道它是什么年份,什么品牌,什么型号的车,同时我们还可以去理解车主的驾驶行为,为未来这种以用户驾驶行为为基础的保险做准备。
说了这么多,其实我就是想表明一个观点,我们在做很多很多事情,但是目的都只有一个,就是希望把日常生活中正在发生的事情,一点一点逐渐地转化成计算机可以理解的数据。
我深深地相信,我们需要打造这样一个桥梁,而且我也相信,在不久的将来,我们现实的世界和虚拟的世界会有一个完美的无缝的融合,就像当年的那个电影一样。
打造一个自然世界的搜索引擎是格灵深瞳的使命,我们希望有一天能够让Insight, in sight。我们希望有一天能够让计算机睁开眼睛,和我们一样看到这个美丽的世界。谢谢大家。