【论文笔记】Unsupervised Discovery of Object Landmarks as Structural Representations

paper:http://www.ytzhang.net/files/publications/2018-cvpr-lmdis-rep.pdf

slide:http://www.ytzhang.net/files/publications/2018-cvpr-lmdis-rep-slides.pdf

【论文笔记】Unsupervised Discovery of Object Landmarks as Structural Representations

 

整个运用了 autoencoder的思想,通过最小化重构误差来优化encoder 和decoder,从而学习得到针对样本输入的抽象特征表示。这种模型用无监督方式对高维数据的进行高效的特征提取和特征表示。简化图如下:

【论文笔记】Unsupervised Discovery of Object Landmarks as Structural Representations

 

  1.  Landmark detector

(1)特征点检测器,每一个特征点都有其对应的特征点检测器。Hourglass

获得原始检测分数图(raw detection score map)得到R:

【论文笔记】Unsupervised Discovery of Object Landmarks as Structural Representations

(2)因为这个原始分数是无界的,作者用softmax归一化成概率,得到检测置信度图D,Dk就是D的第K个channel,是weight map,Dk(u,v) 是第k个channel中坐标为(u,v)的值。

【论文笔记】Unsupervised Discovery of Object Landmarks as Structural Representations

(3)加权平均坐标作为第 k个特征点的位置 (Xk,Yk),这个公式可以实现梯度反传:可以实现从下游神经网络通过特征点坐标向后传播梯度。因为Dk在实际中很少出现完全集中在单个像素中,或者完全均匀分布这种情况。 

【论文笔记】Unsupervised Discovery of Object Landmarks as Structural Representations

 

【论文笔记】Unsupervised Discovery of Object Landmarks as Structural Representations

 

2. Soft constrain

 为了让得到的特征点有效,提出了约束:

(1) Concentration constraint,计算单个heatmap两个维度的方差,使它们尽量小,这样就可以尽量集中到一个点; 

【论文笔记】Unsupervised Discovery of Object Landmarks as Structural Representations

(2)Separation constraint,使得每个channel得到的关键点尽量分开 

【论文笔记】Unsupervised Discovery of Object Landmarks as Structural Representations


(3)Equivariance constraint,对输入图像做可控的扰动(放缩、旋转等变化),要求对应的关键点位置产生相应变化,即具有不变性。

【论文笔记】Unsupervised Discovery of Object Landmarks as Structural Representations

【论文笔记】Unsupervised Discovery of Object Landmarks as Structural Representations

3、Local latent descriptors

因为是autoencoder模型,还需要做decoder计算与原图的重构误差。要复原一个图像只有landmarks是不够的,需要一些其他的潜在表示作为补充信息,避免得到的潜在信息覆盖特征点反应的图像结构。因此只有关键点的信息不足以重建图像,所以用了第二个encoder产生又一个feature map FF(通道数不是K+1)用于描述重构所需信息。然后每个关键点的heatmap作为attention map乘上FF之后再做一个关键点相关的降维线性变换WkWk得到关键点对应的特征描述fkfk,而且fkfk的维度比FF通道数少。把所有关键点的特征合并得到f=(f1,f2,...,fk)f=(f1,f2,...,fk)。在此基础上开始做decoder步骤。

(1)还是通过hourglass获得特征图F,与检测置信度图D有相同的尺寸,F在所有的特征点共享的特征空间,它有 S个通道。

(2)在concentration costrain中,用一个高斯分布(Dk杠)来将该channel对应的landmark突出出来,在这里文章将它当做soft mask来用。用mask提取后再用一个linear operator(线性算子)来将这些feature map映射到一个更低维的空间。C < S

【论文笔记】Unsupervised Discovery of Object Landmarks as Structural Representations

 

4、Landmark-based decoder

在encoder步骤中已经可以得到了关键点坐标,以这个坐标为中心产生高斯分布作为R˜k,一起做channel的归一化得到D˜。同时fk乘W˜k之后经过**函数(文章用了LeakyReLU)再与D˜k相乘,把所有关键点对应的D˜k相加得到F˜,最后经过hourglass上采样得到原图大小输出,计算重构误差。 
(1)用以各个特征点为中心的各向同性高斯分布的概率密度来获得原始分数图,将背景通道设置为1(Rk+1杠=1)

(2)然后将R˜跨通道归一化以获得重构的检测置信度图

(3)fk是对应的landmark描述符,通过操作符Wk杠和**函数(作者这里用的是Leaky-ReLU)将它转换成共享特征空间

(4)最后用hourglass重构图像

【论文笔记】Unsupervised Discovery of Object Landmarks as Structural Representations