VALSE 4月12日 下午 第一会场 深度学习模型设计 会议记录
4月12日 下午 第一会场 深度学习模型设计
主持人:王乃岩——图森未来
题目:Deep High-Resolution Representation Learning for Visual Recognition
讲者:王井东——微软亚研
Convolutional Neural Network = Representation Learning
低分辨率表征学习 → 图像分类
高分辨率表征学习
首先,对于视觉任务,表征学习分为以下几个level。
现有很多结构的特征图变化是从高分辨率到低分辨率(VGG,AlexNet,ResNet)、高分辨率到低分辨率再到高分辨率(Unet,DeconvNet)。
还有中层分辨率,列举出了PSP和ASPP,应该是想说空洞卷积和多尺度等结构。
而目前遇到了以下问题,如果采用Unet结构,特征表示并不够强,如果去掉了下采样的结构,虽然分辨率变高了,但是计算量又太大了。
他们认为,要得到好的效果,低分辨率到高分辨率的过程不应该是仅仅是串行(增加网络深度)的而是并行的,同时还要在不同的尺度之间进行不断的信息交互,如下图:
总结一下他们的工作:就是将高分辨率和低分辨率进行并行处理,并且使得不同分辨率之间一直存在信息交互。所以提出了HRNets。(感觉并没有去解决高分辨率的特征图计算量大的问题,至少我没有听到看到关于这个的解释。)
题目:面向快速推理的卷积神经网络结构设计
讲者:黄高——清华大学
DenseNet的作者,听他讲了一遍感觉有很多体会和感悟,按照他讲的顺序来记录。
Part 1 Dense Connectivity
首先,他们提到了如何发现或者提出DenseNet的,在ResNet发表了之后,他们在对ResNet进行实验的时候,为了剪枝获得更好的收敛性,在ResNet上进行了改进,将每个skip上放上“一枚硬币”。在训练每个minibatch的时候,对于每个block都抛硬币,若为正面则将这个block保留,若为反面的话则直接将下面的block删除。也就是说,在每个minibatch上都随即丢掉一些block,此为随机深度网络。发现这个方法会有很好的效果,进而进一步实验,发现比较浅层的特征对深层的特征同样有重要作用。这就是DenseNet的motivation。
接下来提到了一下标准卷积和组卷积(以及条件放松的组卷积),探讨了一些问题,比如以后是否可以学习groupConv中的group连接?
Part 2 Adaptive Inference
为什么需要更深的网络模型?是为了提升performance。
而这样也导致了一个指数级别增长的参数量。
另外一个观察:有一些图片非常简单,有一些图片非常复杂
接下来引出了一个非常关键的一个观点:
Why do we use the same expensive model for all pictures?
既然图片有简单的有复杂的,那么为什么要把所有图片都做同样的操作。
进而导出了实际上我们现有的网络结构是存在大量的计算浪费的。
于是他们提出了要使用Multi-Scale features
这样的结构,使简单的图片直接从前面的classifier出去,减少了计算量,而复杂的图片经过复杂的处理从后面的classifier出去。(但是具体每张图片怎么判断是简单还是复杂没有提及,需要看看他们的论文)
Multi-scale dense network for efficient image classification, ICLR Oral, 2018
接下来总结了一些问题,关于Adaptive Inference的,分为五个方面:
- Design:怎样去设计一个高效且合适的网络结构?
- Training:怎样去高效的去训练一个动态网络?
- Evaluation:怎样去高效地进行动态评估?
- For other task:怎样将这个应用于其他的任务上?
- Spatial or Temporal:到底是时域还是空域自适应?
题目:高效轻量级深度模型的研究与实践
讲者:张祥雨——旷视
CNN是深度视觉识别系统的核心,而作为一个模型的好坏与两方面相关,一方面是性能,另一方面是计算开销。
一般而言,准确度的提升会伴随着速度的下降。
同时需要考虑到任务与平台的差异性:
- 理论复杂度与实际复杂度的差异
- 任务不同,模型需求也不相同
- 平台或任务额外约束
如果需要设计一个高效的模型,有以下基本的设计思路:
轻量级架构
模型裁剪
模型搜索
低精度量化
知识蒸馏
高效实现
于是提到了他们shuffleNet的工作,v1是有通道的稀疏连接,但是各个分组之间没有信息的链接和交互,v2进行了改进,但是有一些任务(如语义分割)则表现一般,其他任务则精度还不错。他们认为这是他们的Fast downsample的原因。
接下来是对于NAS的一些探索。现存的都是针对特定任务设计不同类型的网络模型,但是还存在”不可能三角”。
即效率、性能、灵活性。怎么去权衡。
后面介绍了一些模型裁剪的工作,但是没太听明白就不放上来了。
总结
题目:网络结构搜索的提速方法和训练技巧
讲者:谢凌曦——美国约翰霍普金斯大学(华为)
NAS狂热者
上来是两个观点:
- Neural Architecture Search (NAS) is the future.
- The future is approaching faster than we used to think.
但是由于我之前完全没有涉及这个领域,所以只能看个热闹,看看总结和未来工作。更多思考其实还是在Panel环节。
总结:
Block是否可以学习?怎样去遍历搜索空间?这些问题还需要去解决
未来工作
题目:基于直接稀疏优化的模型剪枝与网络结构搜索
讲者:王乃岩——图森未来
背景:
NAS is a pioneering task in AutoML.
几个关键点:
NAS as a complex discrete optimization problem
????
Find the best convex relaxation.
然后用到了稀疏搜索?
数据驱动的稀疏结构选择。
具体优化听不懂。
Panel
如何评价手工设计和NAS之间的关系,这一个问题涉及到NAS存在的基础。
张祥雨谈到ResNet构建,他们对googleNet进行实验,发现googleNet效果好的原因在于不是一味的加深网络层数,而是拓宽。进而发现,只要输入输出之间存在一个较短的通路,那么性能就不会太差。通过进一步实验,得出两个结论,一个是googlenet里面的1*1卷积非常重要,另一个是输入输出之间存在较短路是很重要的。所以接下来有了灵感,既然需要短路,那么就设计一个最短的路,就是直接前后都连起来,即ResNet。
NAS究竟应该搜索什么东西,比如搜索空间中是加入了很多人为的设计知识,人为知识到底需不需要,需要的话应该加入什么知识,都是问题。
NAS还有两个问题:
- 下一代的数据在哪里?ImageNet可以说是我们这一代的数据,下一代的引领潮流的数据在哪里?
- 搜索方法仍然不够好,搜索空间也是固定的。
领域的发展取决于:elegant model(通用性的模型)
NAS在某种程度上希望泛化不再存在,因为可以针对特定任务直接搜索即可。
越强大的模型,越具有过拟合的性质和潜力。