依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

数据、算法和算力被称为“AI三要素”。今天，面对超大数据量、算法策略失效、算力不足等新问题，过去的方法已经不再适用。依图科技CTO、IEEE Fellow颜水成博士以AI学者和产业从业者的双重视角，对如何解决目前围绕“AI三要素”的新问题分享了自己的真知灼见。若想了解更多AI资讯，欢迎来新智元 AI 朋友圈与大咖一起讨论～

各位领导、各位朋友，大家好！

今天我是以一个新的角色来跟大家分享的。我是一名学者，同时也是一个产业界的从业者，我想从这两个身份的角度跟大家分享过去几年“AI三要素”的发展给我们带来了哪些新的机遇。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

作为依图的CTO，首先和大家分享一下依图AI的定位。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

依图其实是从算法起家，逐步布局智能城市领域，后来把业务拓展到了智慧医疗，同时基于算力的考虑，在三年前开始布局芯片。

“求索”芯片发布以后，依图完成了从AI软件提供商向AI基础设施提供商和AI解决方案提供商的升级，同时也在制药维度有所布局，我们希望通过AI技术加速和癌症相关药物研制的效能。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

在过去四年中，大家对“AI三要素”关注的方式发生了极大的变化，过去只要是AI，业界就非常开心、愿意投资，到了2017年业界要敦促AI落地，到了2018年还需要让AI商业模式变得非常清晰。

要想让好的商业模式回归商业的本质，最核心的就是两点：首先是达到精度的极限，其次是达到速度的极限。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

要想达到精度的极限，因为数据和算力的约束，其实当前的峰点性能已经从学术界开始转移到了工业界。

要想追求速度的极限，重点要实现AI算法和AI芯片的相互优化，所以现在AI的焦点已经慢慢地从训练侧向推理侧转移。

超大数据环境下的算法策略失效问题

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

首先从数据的维度来看，大家都在说要研究大数据，其实不是的。现在的数据研究已经分成了三个不同的等级：小数据、大数据和超大数据。

十五年前，我在研究人脸识别的时候，样本只有15个人，每个人一张图片，当时我们想出了一些很奇怪的算法，比如把图像看成一个矩阵，通过2D形式提升人脸识别的性能。

但当面对大数据的时候，以前所有的这些东西就没有任何价值了。同样，当我们从大数据转向超大数据时，需要应付的是城市级的应用场景。在这种情况下更需要思考，现在最主流的深度学习的各种常见的策略，面对超大数据还有没有效？

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

为此，我们做了一些Tolerance实验，按数据规模分成小、大和超大三个等级，采用当前常见的提升深度学习训练的策略，让数据分布更加优化、让网络结构变得更大，让网络结构更好优化等等，同时对数据进行清理。结果发现，面对超大数据，有些策略还有用，而有些策略就一点价值也没有了。

比如优化数据分布，在大数据场景中还继续有效，但到了超大数据场景收益逐渐收敛。增大网络模型在小的数据集上效果并不是很明显，到了超大数据集的时候价值就变得越来越大。优化网络结构在小的数据集上的效果非常好，到了超大数据业务场景时，其实已经没什么太大的价值了。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

同样，在面对超大数据的时候，数据清理也变得没有太大的价值。另外，在小规模数据的情况下，大网络发挥的价值是非常小的，达不到量级的提升，而在超大规模数据下，其优势就非常明显了。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

数据优化策略方面我们也在调整性别和人种的分布，无论是大数据还是超大数据都非常有价值，但是数据清理方面，大家常见的这种Trick，小数据集上是有效果的，到了大数据集上就没有了明显的效果。

“产学结合”解决AI算力短缺

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

在算力方面的变化趋势同样明显。NAS第一版平均每天训练只需要80多个GPU，到了Facebook的Instagram研究，已经需要将近7400个GPU了。第一版的BERT需要256TPU。在这种巨大的算力要求面前，学术界实际上很难进行有价值、有影响力的工作，因为没有这样超大GPU集群，算力远远跟不上。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

综合起来可以发现，目前，如果追求精度极限，需要闭环的超大数据集，包括大型GPU算力集群，这些都是学术界缺乏的，但正是产业界具备很大优势的领域。

同时，有些达到很好峰点性能的算法和模型，产业界并没有公开发表，学术界并不知道，所以我们经常在一些学术论文上看到有“刷榜”的情况，实际上如今的开源数据集价值已经大大不如当年ImageNet了。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

现在学术界做的实验，基本上只能在大数据集上进行检验，一个事实就是，在大数据实验上有效的算法和Trick，所有的“微创新”，绝大多数在超大数据集上没有任何价值。现在AI领域每年发表6000多篇学术论文，真正能解决业务场景实际问题的论文凤毛麟角，几乎可以忽略。学术界和产业界迫切需要进行深度合作，才能更好地推动整个生态环境的改变，促进峰点性能的提升。

为了追求速度的极限，就要让AI算法和AI芯片实现相互优化。由于物联网的迅速发展，生成的数据量会极速增加，在数据量剧增，同时计算资源有限的情况下，加快速度就显得尤为重要。

另外一个维度是，因为5G的发展，人们对低时延的期待普遍提升了。除了5G本身的低时延，产生时延另外一个因素是AI算法，要想让用户真的更好地体验低时延，也要从AI算法上下功夫。

依图视觉计算平台：AI算法与芯片设计的“连接器”

正是基于这些原因，科技部依托依图建设了视觉计算国家新一代人工智能开放创新平台，这是一个什么样的平台呢？

首先是开放的生态，我们将为视觉计算开发者提供更加标准和高效的支持与服务，提升智能芯片、智能算法和智能产品的整体产业能力。我们希望这个平台能起到“连接器”的作用，使得算法方和芯片方在相互优化的同时，又能够实现分层解耦。

在平台提供的各种服务中，有一项是算法-芯片优化测试。简单来说，所有的算法设计者把深度学习的模型上传到平台，自动转化成为可以在不同的芯片上运行的深度学习模型，然后进行深度测试，并提供测试报告。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

这些测试报告有什么用？算法的设计者拿到测试报告以后，就知道自己的算法在不同的卷积类型、不同的操作类型、不同的I/O大小的情况下的运行时间，从而更好地设计深度学习模型。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

提到模型设计，其实一个高质量的深度学习模型设计方案分为两部分：一是利用人的智能来设计基础的深度学习模型的模块，比如我的团队提出的1×1卷积，1×1卷积在不同的深度学习模型当中都得到了广泛应用，特别是在图像领域，很多时候作为基础模块使用。另一个则是把这些基本模块输入NAS 搜索空间，再把不同类型模块的时间消耗考虑进去，就可以做专门针对不同芯片类型的NAS结构搜索。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

最近我的学生和Facebook做的Octave卷积，指出Feature Map与图像相似，会有一些 Map 描述高频的部分，另一些描述低频的部分，对于低频的部分可以进一步压缩, 保存在低分辨率下并在低分辨率下处理。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

于是我们就让Feature Map变得异构化，既有大的也有小的，可以设计相应卷积的操作，输出的也是异构Feature Map，模型会比以前变得更小。因为仅对低频部分进行压缩, 信息损失很小，同时这种多尺度结构增加了感受野, 模型分类效能可以显著提高。同时因为模型资源开销变小，所以能够训练更大的模型。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

从芯片开发者的角度出发，大量的深度学习模型需要进行深度测试，这些测试报告可以让芯片开发者知道，下一版的芯片以及工具链应该优化的方向和目标。

更重要的是，深度学习领域每年都会有非常好的模型被提出来，但是又很快被淹没。一个主要的原因在于，这些模型的理论加速比是很高的，但是在当前的AI芯片架构下，这些模型的理论加速性能实际上无法实现。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

打个比方，两年以前我就提出一个模型叫做More is Less，我们发现现在的深度学习卷积完成后，ReLU可能有超过40%的值都是零，这样ReLU之前的数值就不是很重要，能不能用极小的计算预知这些位置，然后把相应的卷积剔除掉呢？

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

当时我们就提出More is Less，ReLU之后再做Element乘法，理论上来说和原始模型相比是没有精度损失的，但是在执行推理任务的时候，计算复杂度会大幅度降低。但是，这种模型在当前的AI芯片架构上是完全没有可能实现的。

算法即芯片：深度融合AI算法和芯片设计

现在，有了依图视觉计算开放创新平台，算法设计者和芯片设计者可以都来这个平台上交流沟通，实现互相链接，通过合作让算法模型的理论的加速比变成实际加速比。

依图的“求索”芯片是今年5月份发布的，当时我们采用“插电发布”，将200路视频连接到AI服务器，现场进行实时人脸检测和人脸识别。基于求索芯片的AI服务器和边缘盒子都可以直接快速部署到用户的业务场景。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

依图在AI芯片和AI算法融合方面已经取得了成果。现在，一个依图的高密度AI服务器机柜，能够支撑10000路视频的解析，这样带来的直接好处就是，用户的建设费用会降低，而且在使用时，因为机柜减少了、功耗下降了，运维的成本也会大幅度降低。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

依图另外一个核心的理念就是要发展多模态的AI技术。依图过去在美国国家技术标准局组织的人脸识别的Vendor Test中，曾经连续三年获得第一。

从去年开始，依图语音识别也取得了不俗的成就，在中文语音识别方面曾经在一个时间段达到SOTA水平。今年，在牛津、MIT等组织的国际声纹识别竞赛上，依图的声纹识别也取得了冠军。

在NLP方面，依图基于电子病历进行儿科疾病诊断的相关成果发布在了《Nature Medicine》上。今年厦门的多媒体信息识别技术竞赛，依图在11项比赛当中，有10项获得了A类证书，是所有参赛队伍当中获得冠军最多的。

总结一下对“AI三要素”的观察，就是：

为了追求极致的精度，其实现在峰值性能因为数据和算力的限制，已经逐步从学术界转移到了工业界。

为了追求极致的速度，我们需要将AI的算法和AI的芯片相互优化，协同开发。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

依图已经形成了比较明确的AI核心理念，基于多模态的峰点算法模型，算法及芯片相互优化和融合的推理方案，不断解锁不同的AI向善的业务场景。

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

用一句话概括，解决“AI三要素”问题三个关键词就是：多模态、软硬一体化和科技向善。

谢谢大家！

依图颜水成：AI芯片设计要深度融合算法，才能实现极致性能

相关推荐