边缘相关图表示学习与推理在人脸解析中的应用

边缘相关图表示学习与推理在人脸解析中的应用

本文由北大与京东AI联合提出,旨在解决人脸解析中的边缘相关的图表示学习与推理任务。

人脸解析:将每个脸部组件的像素标记推断出来

以往的方法虽然在人脸解析任务中效率较高,但是存在一个缺点:忽略了不同面部区域之间的相关性。

本文的方法:通过学习图表示来对区域关系进行建模和推理,并利用区域之间的边缘信息来优化抽象。

大致流程:首先将人脸图像编码到具有相似特征的像素的集合,然后通过在图上的各个顶点之间传播信息来了解区域之间的关系并为其推理。最后,学习的图表示将投影回像素网格进行解析。

1.引言

脸部解析:为面部每个语义组件分配一个像素级标签,是语义分割中的一项特殊任务。
应用:面部理解,编辑,合成和动画

以往的方法:基于区域来分别对面部成分建模;缺点:只是基于每个区域内的单个信息,并且没有利用区域之间的相关性,而且不能捕获远程依赖关系。

实际上,面部成分彼此之间具有丰富的相关性。面部成分之间的相关性是面部表示中的关键线索,在面部解析中应予以考虑。

为了解决捕获远程依赖关系的问题,本文提出一种新的边缘相关图表示方法以学习面部图像的图表示,该图表示对区域之间的关系进行建模,并实现对非局部区域的推理以捕获远距离依赖性。

基本思想:首先,桥接面部图像像素和图顶点,投影具有与每个顶点相似的特征的像素集合。区域中的像素级特征汇总为相应的顶点。此外,图表示通过在所有顶点上传播信息来学习面部区域之间的关系,即顶点之间的图连通性,以及关系的推理。该图可以捕获面部图像中的远距离相关性。最后将学习到的图表示形式投影回像素网格以进行面部分析。由于顶点的数量显着小于像素的数量,因此图表示也有效地减少了特征上的冗余以及计算复杂度。

本文的主要贡献:

1.通过在区域级图表示上建模来利用区域之间的关系进行人脸解析,在该区域中投影具有与每个顶点相似的特征的像素集合,并推理出这些关系以捕获远距离依赖性。

2.在像素到顶点的特征投影中引入了边缘注意力,它在每个顶点的特征聚集过程中强调边缘像素的特征,从而强制沿边缘进行精确分割。

2.方法

2.1总览

给定输入的面部图像,旨在预测相应的解析标签和辅助边缘图。如图1

边缘相关图表示学习与推理在人脸解析中的应用

​ 图1 框架整体流程

整体框架包括以下三个过程:

1.特征与边缘提取 以ResNet为骨干,提取不同级别的特征以进行多尺度表示。 低级特征包含更多细节,但缺少语义信息,而高级特征以图像细节为代价,为全局信息提供了丰富的语义。为了充分利用高级功能中的全局信息,本文采用了空间金字塔池化操作来学习多尺度上下文信息。 此外构造了一个边缘感知模块以获取后续模块的边缘图。

2.边缘相关图推理 将特征图和边缘图输入到边缘感知图推理(EAGR)模块中,旨在学习内在图表示法以表征区域之间的关系。EAGR模块由三个操作组成:图投影,图推理和图重投影,原始投影将特征以边缘感知的方式放置到顶点上,说明图上顶点之间的关系,并将学习到的图表示投影回像素网格,从而生成具有相同大小的精炼特征图。

3.语义解码 将经过精炼的特征融合到解码器中,以预测人脸解析的最终结果。 高级别特征图被上采样到与低级别特征图相同的维度。 将两个特征图连接起来并利用1×1卷积层减少特征通道,预测最终的解析标签。

2.2边缘相关图推理

边缘相关图表示学习与推理在人脸解析中的应用

​ 图 2 边缘相关图推理

目的:建立远距离区域之间的远程互动。

方法:提出边缘感知图推理来对模型进行建模图上区域之间的远程关系,包括边缘感知图投影,图推理和图重投影。

边缘感知图投影 首先重新访问non-local模块。 给定一个特征图XRHW×CX∈R^{HW×C},其中H和W分别表示输入图像的高度和宽度,C是特征通道的数量。non-local模块公式如下:

边缘相关图表示学习与推理在人脸解析中的应用

其中θ,ϕ和γ是内核大小为1×1的卷积运算。 VRHW×HWV∈R^{HW×HW}为对远程依赖关系进行建模的注意力图。 随着像素HW数量的增加,缩放的效果不佳。 为了解决这个问题,本文提出了一种边缘感知投影操作,以消除功能上的冗余。

给定输入特征图XRHW×CX∈R^{HW×C}和边缘图YRHW×1Y∈R^{HW×1},通过将X映射到以Y为先验的图的顶点来构造投影矩阵P。首先通过核大小为1×1的卷积运算reduce减小特征空间中X的维数,从而得到ϕXRHW×Tϕ(X)∈R^{HW×T},T <C。然后将边缘图Y复制到相同维度的ϕXϕ(X),以便于计算。 通过采用ϕ(X)和Y的Hadamard乘积,将边缘信息合并到投影中。当边缘图Y将每个像素编码为边缘像素的概率时,Hadamard乘积运算实质上为每个像素赋予权重较大的边缘像素。引入步长s的平均合并操作P(·),以获得顶点的锚点。这些锚点代表中心每个区域的像素,将ϕ(X)与锚点相乘,以捕获锚点与每个像素之间的相似性。然后应用softmax函数进行归一化。投影矩阵采用以下形式:

边缘相关图表示学习与推理在人脸解析中的应用

其中\odot表示Hadamard乘积,PRHW/s2×HWP∈R^{HW / s2×HW}

在等式中 (2),有两个关键操作:边缘注意力合并操作。 边缘注意力通过为边缘像素分配更大的权重来强调边缘像素的特征。 此外,在边缘特征中提出池化操作,其优点有两个方面。 一方面,通过对特征进行平均以消除冗余。另一方面,可以降低计算复杂度。

利用获取的投影矩阵P,将像素特征X投影到图域上:

边缘相关图表示学习与推理在人脸解析中的应用

其中θ是一个核大小为1×1的卷积运算,以减小X的维数,从而得出θXRHW×Kθ(X)∈R^{HW×K}。 投影聚合的像素具有与每个顶点锚点相似的特征,因此每个顶点实质上代表了面部图像中的一个区域。 通过提出的边缘感知图投影桥接像素和每个区域之间的连接,从而通过等式 (3)产生图XGRHW/s2×KX_G∈R^{HW / s2×K}上投影顶点的特征。

图推理 下一步,从XGX_G学习顶点之间的连通性,即区域之间的关系。同时,通过在各个顶点之间传播信息来学习高级语义信息,从而对这种关系进行推理。这种推理通过单层GCN来实现。
将输入顶点特征XGX_G馈入频谱图卷积的一阶近似。 输出特征图XˆGRHW/s2×KXˆ_G∈R^{HW / s2×K}

边缘相关图表示学习与推理在人脸解析中的应用

其中A表示对图的连通性进行编码以学习的相邻矩阵,WGRK×KW_G∈R^{K×K}表示GCN的权重,而ReLU是**函数。 通过顶点交互(与(I -A)相乘)和信道交互(与WGW_G相乘)来获取特征XˆGXˆ_G

图映射 为了适应现有框架,将图域中提取的顶点特征重新投影到原始像素网格。给定学习的图表示XGRHW/s2×KX_G∈R^{HW / s2×K},旨在计算将ˆXGˆX_G映射到像素空间的矩阵VRHW×HW/s2V∈R^{HW×HW / s2}。 从理论上讲,V可以作为投影矩阵P的逆。但由于P不是方阵,因此计算起来并不容易。为了解决这个问题,本文使用转置矩阵PTP^T作为重映射矩阵,PijTP^T_{ij}反映顶点i和像素j之间的相关性。 该操作的局限性在于PTP^T 中的行向量未归一化。

重新投影后,使用1×1卷积运算σ来增加与输入特征X一致的特征通道。然后将重新投影的精确特征和原始特征图的总和作为最终特征。 最终的特征图ZRHW×CZ∈R^{HW×C}由下式计算

边缘相关图表示学习与推理在人脸解析中的应用

2.3损失函数

目的:为了进一步强化边缘相关图推理的效果。

引入boundary-attention loss(BA-Loss)来预测解析特征图和边缘特征图。BA损失仅在边缘像素处计算预测标签与ground-truth之间的损失,从而提高关键边缘像素的分割精度。 BA损失写为

边缘相关图表示学习与推理在人脸解析中的应用

其中,i是像素的索引,j是类的索引,N是类的数目。 ei表示边缘标签,yijy_{ij}表示面部分析的ground-truth标签,pijp_{ij}表示预测的分析标签。 [·]是Iverson括号,表示如果满足括号中的条件,则该数字为1,否则为0。

总损失函数如下:

边缘相关图表示学习与推理在人脸解析中的应用

其中LparsingL_{parsing}LedgeL_{edge}是解析和边缘图的经典交叉熵损失。 λ1和λ2是两个超参数,可以在三个损失函数之间取得平衡。

3.实验

采用Helen数据集:包含11个种类,2330张图片。

边缘相关图表示学习与推理在人脸解析中的应用

骨干网络使用ResNet-101,除了平均池化层之外,Conv1块更改为三个3×3卷积层。pooling因子为{1、2、3、6}。边缘感知模块根据ResNet-101中Conv2,Conv3和Conv4的输出预测两通道边缘图。 Conv1和金字塔池的输出分别用作低级和高级功能图。 两者都分别馈入EAGR模块以进行图形表示学习。EAGR模块将池化大小设置为6×6。为了更多地关注面部组件,使用中心4×4anchor来构建图。 特征维度K和T设置为128和64。

消融实验

边缘相关图表示学习与推理在人脸解析中的应用

​ 图 3 面部解析结果

边缘相关图表示学习与推理在人脸解析中的应用

边缘相关图表示学习与推理在人脸解析中的应用

不同方法的对比实验

边缘相关图表示学习与推理在人脸解析中的应用

图映射的可视化

边缘相关图表示学习与推理在人脸解析中的应用

4总结

以往的面部解析方法只是基于每个区域内的单个信息,并且没有利用区域之间的相关性,而且不能捕获远程依赖关系。因此本文提出了一种新的面向边缘的图推理的人脸解析图表示学习范式,该范式可以捕获区域关系以对远程上下文信息进行建模。 利用边缘提示,以便将较高像素投射到更高语义级别的图顶点上。 然后,利用所有顶点上的推理之间的关系,以表征语义信息。本文主要贡献:1.提出通过在区域级图表示上建模来利用区域之间的关系进行人脸解析,在该区域中投影具有与每个顶点相似的特征的像素集合,并推理出这些关系以捕获远距离依赖性。2.在像素到顶点的特征投影中引入了边缘注意,它在每个顶点的特征聚集过程中强调边缘像素的特征,从而强制沿边缘进行精确分割。
1.提出通过在区域级图表示上建模来利用区域之间的关系进行人脸解析,在该区域中投影具有与每个顶点相似的特征的像素集合,并推理出这些关系以捕获远距离依赖性。2.在像素到顶点的特征投影中引入了边缘注意,它在每个顶点的特征聚集过程中强调边缘像素的特征,从而强制沿边缘进行精确分割。

AI算法后丹修炼炉是一个由各大高校以及一线公司的算法工程师组建的算法与论文阅读分享组织。我们不定期分享最新论文,资讯,算法解析,以及开源项目介绍等。欢迎大家关注,转发,点赞。同时也欢迎大家来平台投稿,投稿请添加下方小助手微信。

QQ交流群:216912253

查看更多交流方式

微信公众号:AI算法后丹修炼炉

小助手ID:jintianandmerry
边缘相关图表示学习与推理在人脸解析中的应用