Self Supervised部分相关论文简介
Self Supervised部分相关论文简介
摘要:
这篇博文将记录我在接下来一周阅读自己收集的多篇自监督论文,它们大部分来自计算机视觉和机器学习相关的顶会,发表时间从2016年到2020年。在此仅记录文章大致内容和方法,部分论文会加入一些简单评论,以方便后续查阅文献。
自监督论文阅读
#1 “Context Encoders: Feature Learning by Inpainting” [CVPR 2016]
这篇论文基于上下文编码进行图像缺失部分恢复(预测)的方式,实现特征学习。类似于自编码器,本文提出了一种上下文编码器(context encoders)旨在根据周围的环境生成mask的区域。所以,想要实现这个功能,这个编码器必须能够编码图像的全局内容和为缺失的块中每个像素生成一个预测值。作者探究了用什么损失比较好:第一使用逐像素的重建损失,第二是使用重建损失加上对抗损失。后者的结果更好,(我的直观理解是对抗损失的加入能够学习到缺失部分的全局信息)。作者指出,上下文编码器不仅可以学出外观还能学习到语义结构信息。自监督学习可用于分类、检测和分割等任务的预训练。独立使用也可以用于图像修复。
通过填充这个mask,来实现无监督编码图像,希望学习到上下文信息。显然三个关键部分:1)什么样的结构有助于学习到上下文信息;2)如何设计有效的能收敛的损失函数;3)mask应该选择在图像的什么位置;
1.网络整体结构
结构不同于AlexNet的地方就是在encoder和decoder之间加了一个channel-wise的全连接层。作者希望这个全连接能够建模所有feature map的相关性。为什么是channe-wise呢,目的就是为了减少参数量,channel间共享参数能够减少一半参数量也就是:mn^4,m是channel数目,n 是feature map大小(nn)。
2 损失项:
1)重构损失:
M冒是mask时为1。F(x)是预测值。
2)对抗损失:
3)mask选取:
实验表明 random region 这种比较好。作者后续所有实验都是用的 random region 。
#2 Multi-task Self-Supervised Visual Learning [2017]
这篇paper的主要是分析了四种自监督方法的有效性,并且探讨什么样的组合会更加有效。由于不同方法之间存在较大差异,比如彩色化的自监督任务和exemplar learning任务输入维度是不同的。彩色化输入是一维的灰度图像(L,其中L是Lab颜色空间中的强度通道),L重复三次。第二就是语义类和实例分配的差异性。针对二个问题修改了网络结构(详细见论文)。
本文为什么要做这个工作:1)以往的自监督都是在不同的网络模型上训练的,横向比较难以得知那种任务会更有效。2)之前的工作后续任务是不同的,也不易比较自监督的性能。
本文探讨的四个自监督任务各自的性能和提出的多任务合并的性能。
四个自监督任务分别是:1 Relative Position, 在一个图像中随机选取两个块来预测它们的相对位置。2 Colorization 这个是输入网络L强度图像,用原始的Lab 监督,以学到从灰度到彩色的特征描述从而进行特征表示。3.Exemplar 是每个图像为一个伪标签,利用数据增广的方式产生很多图像,产生的图像相同的语义标签。利用这个伪标签来训练网络。这样会有个问题是大尺度的数据集是很难训练的,因为参数量爆炸,因为最后的全连接层输出维度太高。4. Motion Segmentation 运动分割,这个是视频中应用的自监督方法,通过当前帧预测下一帧运动目标的位置。
简单的结论是:在自我监督的方法中,相对位置法和色彩化法表现最好。
Na¨ıve 多任务合并的自监督:四种任务是具有互补性的,四种一起性能最好。具体方法并不复杂。