2020-07-08 CVPR2020 表示学习论文讨论(3) 笔记
目录
- [1] X-Linear Attention Networks for Image Captioning
- [2] Select to Better Learn Fast and Accurate Deep Learning using Data Selection from Nonlinear Manifolds
- [3] AdderNet: Do We Really Need Multiplications in Deep Learning?
- [4] Optimizing Rank-based Metrics with Blackbox Differentiation
- [5] Circle Loss: A Unified Perspective of Pair Similarity Optimization
- [6] Learning to Learn Single Domain Generalization
- 总结
[1] X-Linear Attention Networks for Image Captioning
- motivation:X表示阶数,带来未知和无限可能。现有的attention是一阶的。
- method:通过对K和Q(或Q和V)使用local bilinear pooling,得到高阶信息,使用Squeeze Excitation得到channel attention。堆叠这个block,得到高阶信息。
[2] Select to Better Learn Fast and Accurate Deep Learning using Data Selection from Nonlinear Manifolds
- task:选择数据集中具有代表性的数据。
- challenge:让选取的数据张成的空间,和源数据张成的空间,尽可能接近。eg:M代表源数据,K代表要选取的数据(K=0.1M),从M中选K是个NP hard问题。
- contribution1:对原目标函数进行分解,先进行矩阵分解,并添加约束。但是,U中每列必须是选择的样本,约束太强了,故继续改进,使其变为逐列更新(文中公式4a、4b),有些类似K-SVD算法。这部分统称为SP算法。
- contribution2:将SP算法应用在流形空间上。希望训练集中某一个样本,是由选取的样本中其邻居重构出来的(文中公式5)。类比公式1,得出公式6,优化公式6的步骤为KSP方法,本质是,先用kernel得到L,然后应用SP算法。
[3] AdderNet: Do We Really Need Multiplications in Deep Learning?
- oral,华为诺亚实验室和北大合作的一篇文章,这篇我记得看过。
- method:用L1距离代替卷积操作,由于其结果均为负值,引入BN操作(BN内的乘法操作没有那么expensive)。
- AdderNet的方差比较大,梯度较小,故使用大学习率。
- 本文由于只用加法操作,在CPU上就能跑,没有和CNN对比速度,因为CNN是在GPU上跑的。
[4] Optimizing Rank-based Metrics with Blackbox Differentiation
- motivation:由于这些指标的不可区分性和不可分解性,对Rank-based Metrics的优化仍然是一个挑战。
- method:将排序函数建模为组合优化问题,并通过ICLR2020的一篇文章进行求解。
[5] Circle Loss: A Unified Perspective of Pair Similarity Optimization
- oral,旷世、北航
- 类内相似度,类间相似度,一般任务都要最小化。用代表margin,margin是预设的阈值。当差值小于margin时,才有loss,否则loss为0。
- contribution1:和的梯度不应该是固定的,应是自适应的,本文添加了参数和,并通过一个策略进行更新。
- contribution2:直线收敛边界,改为圆形收敛边界。和的margin不应该相同,本文引入和.
[6] Learning to Learn Single Domain Generalization
- task:从一个源域,生成多个目标域的数据。eg:训练数据和测试数据的分布不同,需要进行数据泛化。
- related work:对抗方法,生成样本。
- challenge:①. 创造与源域不同的虚拟的域。②. 尽可能多的生成样本,这会消耗大量的计算资源。
- method:使用meta-learning,提出adversarial domain augmentation、relaxing the widely used worst-case constraint,最大化损失。
- pipeline:使用公式4生成数据,使用数据对auto encoder进行更新,使用已有数据优化模型,使用生成的数据进行测试,使用多个loss再进行update,提升泛化能力。
总结
- [1] 提出高阶attention,文中只针对image caption,其他领域呢?
- [2] 这种data select领域,我从没接触过,但是这篇文章听着真的非常舒服,金豆讲的也特别好,什么问题,怎么解决,都听得很明白。
- [3] AdderNet这种思路好像以前有人做过类似的,两种特征分布,真的a就比b好么?
- [6] meta-learning是啥,我以前一直不清楚,听了这次报告后,去大概了解了一下。首先 meta-learning 想法的来源:人类学习某个新的事物会利用之前学到的东西,比如你会玩 LOL,那你学王者荣耀会很快。但是现在的深度学习模型在遇到新的问题,即使很类似的情况下需要从 0 开始重新学习!这一人类智能和 AI 的差异就导致了 meta-learning 的产生。meta-learning 也叫 learning to learn,就是学会学习。(参考自知乎)