VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

4月12日  下午  第一会场  深度学习模型设计

主持人:王乃岩——图森未来

 

题目:Deep High-Resolution Representation Learning for Visual Recognition

讲者:王井东——微软亚研

Convolutional Neural Network = Representation Learning

低分辨率表征学习 → 图像分类

高分辨率表征学习

 

首先,对于视觉任务,表征学习分为以下几个level。

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

现有很多结构的特征图变化是从高分辨率到低分辨率(VGG,AlexNet,ResNet)、高分辨率到低分辨率再到高分辨率(Unet,DeconvNet)。

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

还有中层分辨率,列举出了PSP和ASPP,应该是想说空洞卷积和多尺度等结构。

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

而目前遇到了以下问题,如果采用Unet结构,特征表示并不够强,如果去掉了下采样的结构,虽然分辨率变高了,但是计算量又太大了。

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

他们认为,要得到好的效果,低分辨率到高分辨率的过程不应该是仅仅是串行(增加网络深度)的而是并行的,同时还要在不同的尺度之间进行不断的信息交互,如下图:

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

总结一下他们的工作:就是将高分辨率和低分辨率进行并行处理,并且使得不同分辨率之间一直存在信息交互。所以提出了HRNets。(感觉并没有去解决高分辨率的特征图计算量大的问题,至少我没有听到看到关于这个的解释。)

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

 

题目:面向快速推理的卷积神经网络结构设计

讲者:黄高——清华大学

DenseNet的作者,听他讲了一遍感觉有很多体会和感悟,按照他讲的顺序来记录。

 

Part 1 Dense Connectivity

首先,他们提到了如何发现或者提出DenseNet的,在ResNet发表了之后,他们在对ResNet进行实验的时候,为了剪枝获得更好的收敛性,在ResNet上进行了改进,将每个skip上放上“一枚硬币”。在训练每个minibatch的时候,对于每个block都抛硬币,若为正面则将这个block保留,若为反面的话则直接将下面的block删除。也就是说,在每个minibatch上都随即丢掉一些block,此为随机深度网络。发现这个方法会有很好的效果,进而进一步实验,发现比较浅层的特征对深层的特征同样有重要作用。这就是DenseNet的motivation。

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

接下来提到了一下标准卷积和组卷积(以及条件放松的组卷积),探讨了一些问题,比如以后是否可以学习groupConv中的group连接?

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

Part 2 Adaptive Inference

为什么需要更深的网络模型?是为了提升performance。

而这样也导致了一个指数级别增长的参数量。

另外一个观察:有一些图片非常简单,有一些图片非常复杂

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

接下来引出了一个非常关键的一个观点:

Why do we use the same expensive model for all pictures?

既然图片有简单的有复杂的,那么为什么要把所有图片都做同样的操作。

进而导出了实际上我们现有的网络结构是存在大量的计算浪费的。

 

于是他们提出了要使用Multi-Scale features

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

这样的结构,使简单的图片直接从前面的classifier出去,减少了计算量,而复杂的图片经过复杂的处理从后面的classifier出去。(但是具体每张图片怎么判断是简单还是复杂没有提及,需要看看他们的论文)

Multi-scale dense network for efficient image classification, ICLR Oral, 2018

 

接下来总结了一些问题,关于Adaptive Inference的,分为五个方面:

  • Design:怎样去设计一个高效且合适的网络结构?
  • Training:怎样去高效的去训练一个动态网络?
  • Evaluation:怎样去高效地进行动态评估?
  • For other task:怎样将这个应用于其他的任务上?
  • Spatial or Temporal:到底是时域还是空域自适应?

 

题目:高效轻量级深度模型的研究与实践

讲者:张祥雨——旷视

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

CNN是深度视觉识别系统的核心,而作为一个模型的好坏与两方面相关,一方面是性能,另一方面是计算开销。

一般而言,准确度的提升会伴随着速度的下降。

同时需要考虑到任务与平台的差异性:

  • 理论复杂度与实际复杂度的差异
  • 任务不同,模型需求也不相同
  • 平台或任务额外约束

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

如果需要设计一个高效的模型,有以下基本的设计思路:

轻量级架构

模型裁剪

模型搜索

低精度量化

知识蒸馏

高效实现

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

于是提到了他们shuffleNet的工作,v1是有通道的稀疏连接,但是各个分组之间没有信息的链接和交互,v2进行了改进,但是有一些任务(如语义分割)则表现一般,其他任务则精度还不错。他们认为这是他们的Fast downsample的原因。

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

接下来是对于NAS的一些探索。现存的都是针对特定任务设计不同类型的网络模型,但是还存在”不可能三角”。

即效率、性能、灵活性。怎么去权衡。

后面介绍了一些模型裁剪的工作,但是没太听明白就不放上来了。

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

总结

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

 

题目:网络结构搜索的提速方法和训练技巧

讲者:谢凌曦——美国约翰霍普金斯大学(华为)

NAS狂热者

上来是两个观点:

  • Neural Architecture Search (NAS) is the future.
  • The future is approaching faster than we used to think.

 

但是由于我之前完全没有涉及这个领域,所以只能看个热闹,看看总结和未来工作。更多思考其实还是在Panel环节。

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

总结:

Block是否可以学习?怎样去遍历搜索空间?这些问题还需要去解决

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

未来工作

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

 

题目:基于直接稀疏优化的模型剪枝与网络结构搜索

讲者:王乃岩——图森未来

背景:

NAS is a pioneering task in AutoML.

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

几个关键点:

NAS as a complex discrete optimization problem

????

Find the best convex relaxation.

 

然后用到了稀疏搜索?

数据驱动的稀疏结构选择。

VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录

具体优化听不懂。

 

Panel

如何评价手工设计和NAS之间的关系,这一个问题涉及到NAS存在的基础。

张祥雨谈到ResNet构建,他们对googleNet进行实验,发现googleNet效果好的原因在于不是一味的加深网络层数,而是拓宽。进而发现,只要输入输出之间存在一个较短的通路,那么性能就不会太差。通过进一步实验,得出两个结论,一个是googlenet里面的1*1卷积非常重要,另一个是输入输出之间存在较短路是很重要的。所以接下来有了灵感,既然需要短路,那么就设计一个最短的路,就是直接前后都连起来,即ResNet。

NAS究竟应该搜索什么东西,比如搜索空间中是加入了很多人为的设计知识,人为知识到底需不需要,需要的话应该加入什么知识,都是问题。

NAS还有两个问题:

  • 下一代的数据在哪里?ImageNet可以说是我们这一代的数据,下一代的引领潮流的数据在哪里?
  • 搜索方法仍然不够好,搜索空间也是固定的。

领域的发展取决于:elegant model(通用性的模型)

NAS在某种程度上希望泛化不再存在,因为可以针对特定任务直接搜索即可。

越强大的模型,越具有过拟合的性质和潜力。