您的位置: 首页 > 文章 > 2020-07-08 CVPR2020 表示学习论文讨论（3）笔记

2020-07-08 CVPR2020 表示学习论文讨论（3）笔记

分类: 文章 • 2025-03-11 14:09:40

目录

[1] X-Linear Attention Networks for Image Captioning
[2] Select to Better Learn Fast and Accurate Deep Learning using Data Selection from Nonlinear Manifolds
[3] AdderNet: Do We Really Need Multiplications in Deep Learning?
[4] Optimizing Rank-based Metrics with Blackbox Differentiation
[5] Circle Loss: A Unified Perspective of Pair Similarity Optimization
[6] Learning to Learn Single Domain Generalization
总结

[1] X-Linear Attention Networks for Image Captioning

motivation：X表示阶数，带来未知和无限可能。现有的attention是一阶的。
method：通过对K和Q（或Q和V）使用local bilinear pooling，得到高阶信息，使用Squeeze Excitation得到channel attention。堆叠这个block，得到高阶信息。

[2] Select to Better Learn Fast and Accurate Deep Learning using Data Selection from Nonlinear Manifolds

task：选择数据集中具有代表性的数据。
challenge：让选取的数据张成的空间，和源数据张成的空间，尽可能接近。eg：M代表源数据，K代表要选取的数据（K=0.1M），从M中选K是个NP hard问题。
contribution1：对原目标函数进行分解，先进行矩阵分解，并添加约束。但是，U中每列必须是选择的样本，约束太强了，故继续改进，使其变为逐列更新（文中公式4a、4b），有些类似K-SVD算法。这部分统称为SP算法。
contribution2：将SP算法应用在流形空间上。希望训练集中某一个样本，是由选取的样本中其邻居重构出来的（文中公式5）。类比公式1，得出公式6，优化公式6的步骤为KSP方法，本质是，先用kernel得到L，然后应用SP算法。

[3] AdderNet: Do We Really Need Multiplications in Deep Learning?

oral，华为诺亚实验室和北大合作的一篇文章，这篇我记得看过。
method：用L1距离代替卷积操作，由于其结果均为负值，引入BN操作（BN内的乘法操作没有那么expensive）。
AdderNet的方差比较大，梯度较小，故使用大学习率。
本文由于只用加法操作，在CPU上就能跑，没有和CNN对比速度，因为CNN是在GPU上跑的。

[4] Optimizing Rank-based Metrics with Blackbox Differentiation

motivation：由于这些指标的不可区分性和不可分解性，对Rank-based Metrics的优化仍然是一个挑战。
method：将排序函数建模为组合优化问题，并通过ICLR2020的一篇文章进行求解。

[5] Circle Loss: A Unified Perspective of Pair Similarity Optimization

oral，旷世、北航
类内相似度 $s_p$ ，类间相似度 $s_n$ ，一般任务都要最小化 $s_n-s_p$ 。用 $m=s_p-s_n$ 代表margin，margin是预设的阈值。当差值小于margin时，才有loss，否则loss为0。
contribution1： $s_p$ 和 $s_n$ 的梯度不应该是固定的，应是自适应的，本文添加了参数 $\alpha_p$ 和 $\alpha_n$ ，并通过一个策略进行更新。
contribution2：直线收敛边界，改为圆形收敛边界。 $s_p$ 和 $s_n$ 的margin不应该相同，本文引入 $\Delta_p$ 和 $\Delta_n$ .

[6] Learning to Learn Single Domain Generalization

task：从一个源域，生成多个目标域的数据。eg：训练数据和测试数据的分布不同，需要进行数据泛化。
related work：对抗方法，生成样本。
challenge：①. 创造与源域不同的虚拟的域。②. 尽可能多的生成样本，这会消耗大量的计算资源。
method：使用meta-learning，提出adversarial domain augmentation、relaxing the widely used worst-case constraint，最大化 $L_{ADA}$ 损失。
pipeline：使用公式4生成数据，使用数据对auto encoder进行更新，使用已有数据优化模型，使用生成的数据进行测试，使用多个loss再进行update，提升泛化能力。

总结

[1] 提出高阶attention，文中只针对image caption，其他领域呢？
[2] 这种data select领域，我从没接触过，但是这篇文章听着真的非常舒服，金豆讲的也特别好，什么问题，怎么解决，都听得很明白。
[3] AdderNet这种思路好像以前有人做过类似的，两种特征分布，真的a就比b好么？
[6] meta-learning是啥，我以前一直不清楚，听了这次报告后，去大概了解了一下。首先 meta-learning 想法的来源：人类学习某个新的事物会利用之前学到的东西，比如你会玩 LOL，那你学王者荣耀会很快。但是现在的深度学习模型在遇到新的问题，即使很类似的情况下需要从 0 开始重新学习！这一人类智能和 AI 的差异就导致了 meta-learning 的产生。meta-learning 也叫 learning to learn，就是学会学习。（参考自知乎）