互联网大势已去,两分钟告诉你下一个风口在哪里

互联网大势已去,两分钟告诉你下一个风口在哪里

前言:在前一篇文章里面我们提到了市值达到一千亿美元的17家公司,这些公司创造了很多业界神话,也缔造了很多商业**。这些公司中的大部分创始人都是IT工程师出身,他们在互联网的洪流中激流勇进,创造了无数令人拍手称赞的神话。(没看过该文的欢迎点击页面下方的阅读原文进行阅读——《80%的千亿级公司,居然是同一种人创办的》)

现在,每天都有无数人在谈创新、颠覆、破坏性创新、创新性破坏、下一个千亿级的公司。那么,下一个风口到底是什么?格灵深瞳的联合创始人赵勇给出的答案是机器人和人工智能。很多人可能觉得这有点虚也有点俗,而且很多时候这是一个伪命题,因为许多号称是智能的机器人其实既没有人工智能也不是真正的机器人。

全世界第一部真正能够在自然世界中与人近距离接触并且能够安全运行的机器人,是谷歌公司研发的无人驾驶汽车。经过在高速公路、乡村和城市等不同路况的超过几十万英里的测试中,谷歌已经证明了计算机可以比人类司机安全几十倍。自动驾驶汽车能够解决的不仅仅是安全问题,这样的机器人未来可以在解决能源问题,交通拥堵问题上做出巨大的贡献。

互联网大势已去,两分钟告诉你下一个风口在哪里

虽然机器人和人工智能还有很多问题,但是说到瓶颈只有一个,就是对周围世界的感知能力。也就是说,机器应该怎样使用“眼睛”去感知这个世界,并利用感知到的信息,自主地判断该如何行动。如果这个问题解决了,我们就能把机器人从一个伪命题变成真命题。

互联网大势已去,两分钟告诉你下一个风口在哪里

怎么样去解决这个问题有三个方面:

1.三维的深度视觉。传统的计算机视觉系统都是基于两维相机捕捉的视频信号。这样的图像对于人眼来说是基本没有问题的,但是对于计算机视觉系统来说,这里有严重的障碍。譬如比例混淆的问题:相信很多人都见过那种视觉错位的照片。在二维世界中,尺度的比例是混淆的。失去了精确的尺度概念,就失去了对尺寸、距离、速度等概念的把握。这对于视觉系统来说是严重的缺陷。而比例混淆的根本原因是相机在成像的过程中丢失了纵深维度。

这个世界是三维的,我们应该用三维的方式去理解它。利用三维深度视觉,对于解决视觉感知技术,尤其是实时的、对精确度要求很高的技术,至关重要。下图是一个三维的错位艺术作品,你能想象如此具有立体感的画面竟然全部是画在平面地板上的吗?行驶在这样的道路上,无人驾驶汽车要是不具备三位深度视觉,它是该选择前进还是停车呢?

互联网大势已去,两分钟告诉你下一个风口在哪里

2.深度学习(Deep Learning)。人工智能领域在过去花了很多年时间研究机器学习的方法。如果我们能够对人脑的工作原理进行反向工程,搞清楚人的大脑是怎么工作的,那么我们就可以在计算机软件中模拟人脑,让计算机像人一样思考。近年来使用了大规模的计算机集群,配合大量的训练数据,在这些条件下训练出来的更庞大的神经网络技术展现出了超越历史的性能。深度学习技术在过去五年在各个领域中都超越了传统的机器学习方法,是目前表现最优秀的机器学习技术。

模式识别是视觉感知的关键任务之一,而优秀的机器学习技术是模式识别成功的关键。在目前看来,深度学习技术是最适合解决视觉感知难题的学习方法。这种方法似乎更加适应复杂的场景。它的缺点就是训练这种模型的数据和运算的成本都非常高。

互联网大势已去,两分钟告诉你下一个风口在哪里

3.所以,第三件重要的事情,就是解决视觉感知系统的运算成本

虽然计算机CPU的处理速度已经很快,对于计算机视觉系统来说,仍然显得不足。解决高性能运算的方法最直接的就是使用计算机集群阵列,譬如云计算。然而,利用云计算解决视觉感知系统的运算问题耗费的带宽成本,功耗成本和计算成本都太大,远程运算给系统带来的风险也很大。我们需要在机器人的体内构建尺寸小,价格便宜,同时运算密度极高的计算机。

目前我们比较看好的是两种解决方案:

第一是GPGPU。GPGPU和传统的CPU不同,采用了基于SIMD架构的并行运算架构。这种架构可以在有限的芯片空间里容纳大量的并行运算单元。2014年最先进的GPGPU芯片已经可以集成多达3000个运算内核。在移动平台上,类似的技术已经可以把多达192个GPGPU内核集成在一个低功耗的芯片上。这是传统的CPU架构无法比拟的。

互联网大势已去,两分钟告诉你下一个风口在哪里

第二种技术比较新颖,叫做神经网络芯片。譬如IBM公司发明的SyNAPSE系列芯片。这些芯片放弃了传统的基于数值运算的架构,直接去仿真神经元和神经突触组成的网络。最新的SyNAPSE芯片已经包含了一百万个神经元,每个神经元通过多达256个神经突触和其他神经元组成网络。虽然这些数字距离人脑的神经元数目相差很大(大约5个数量级),但是集成电路的工作速度比人脑中的神经元要快大约一千万倍。因此,我们有机会基于这样的芯片,开发出非常聪明高效的深度学习算法。

互联网大势已去,两分钟告诉你下一个风口在哪里

当然,在人工智能这个领域,科学界还有很长的一段路要走。但是这并不阻碍我们利用已有的技术在应用领域里收获成果,格灵深瞳利用三维深度视觉来进行机器的深度学习。要实现真正的机器人和人工智能,这个目标非常远大,它不是一年两年,而是未来十年、二十年甚至更长的时间才可能做好的事情。但是我们坚信,在通往这些目标的旅途中,充满了乐趣和挑战,以及伟大的商业机遇。格灵深瞳从它成立之日起,就注定是一家与众不同的公司,让我们一起期待它鸿鹄展翅、力破九天的那一天。

格灵深瞳简介
格灵深瞳是一家专注于计算机视觉以及人工智能的科技公司。我们致力于让计算机像人一样主动获取视觉信息并进行精确的实时分析,释放人工智能最大的潜能为人服务。格灵深瞳创立于2013年初,成立不久就获得真格基金和联创策源的天使投资,并于2014年6月获得红杉资本数千万美元A轮投资。我们现阶段聚焦于将全球领先的人工智能及模式识别技术应用到安防、交通、零售等领域。客户包括了中国网点最多的银行,销售额最高的商场,以及客流量最大的机场等。

互联网大势已去,两分钟告诉你下一个风口在哪里