[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting

论文:Attention-Guided Hierarchical Structure Aggregation for Image Matting
代码:wukaoliu/CVPR2020-HAttMatting

介绍

图像抠图是指从输入图像中精确估计前景的不透明度。图像抠图的逆过程是图像合成,合成方程如下:
[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting
其中:

  • zz 指的是输入RGB图像 II 的像素位置
  • αz,Fz,Bz\alpha _z, F_z, B_z 分别是 zz 处的 α\alpha 估计,前景和背景

传统方法利用颜色分布来预测α\alpha,但当前景和背景颜色相近时,传统方法便不太适用。

Deep Image Matting(DIM)引入深度学习的方法,通过设计复杂的网络提取高级语义特征,并融合来自输入图像或低级CNN特征的外观线索,但这也依赖于trimaps作为辅助以及昂贵的输入。

本文对高级语义和外观线索进行了综合研究,提出了一种端到端的层次注意抠图网络(HAttMatting),实现了这种层次结构的聚合。高级语义可以提供FG类别和轮廓,而外观提示提供纹理和边界细节。为了更深入地整合这种层次结构,我们在高级语义上进行通道级关注,以选择适合于抠图的特征,并在外观线索上使用空间注意来过滤图像纹理细节,最后将其聚合以预测 α\alpha 蒙版。此外,利用均方误差(MSE)、结构相似性(SSIM)和对抗性损失组成的混合损失来优化整个网络的训练。大量的实验表明,我们的注意力引导的层次结构聚合可以感知高质量的 alphaalpha 蒙版,只需要RGB图像作为输入。
[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting

方法

概述

由式(1)可知,完整的目标FG应包括两部分:1)表示FG类别和轮廓的主体αz=1(\alpha _z=1);2)位于过渡区的内部纹理和边界细节αz01(\alpha _z \in(0,1))。前者可以通过高级语义来表示,后者通常来自输入图像或CNN的低级特征,称为外观线索,它们的组合可以实现α\alpha 蒙版。在本文中,我们认为高级语义和外观线索在组合之前需要进行适当的处理。首先,自然图像抠图需要处理不同类型的FG对象,这就要求我们提取高级语义来处理FG信息,并对其进行适当的抑制以降低其对对象类的敏感性。第二,如图3所示,外观线索涉及不必要的背景细节,这些细节需要在α\alpha 蒙版中删除。
[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting
在以上分析的基础上,本研究的核心思想是选择适合于背景信息的语义信息,消除外观线索中冗余的BG纹理,然后对其进行聚合以预测 α\alpha 蒙版。为此,我们采用通道注意提取从Atrous空间金字塔池(ASPP)中提取的高级语义,并对外观线索进行空间注意,同时消除FG之外的图像纹理细节。我们精心设计的层次注意机制可以从自适应语义和精细边界中感知FG结构,并且它们的聚合可以获得更好的 α\alpha 蒙版。此外,我们结合均方误差(MSE)、结构相似性(SSIM)和对抗性损失,设计了一种混合损失来指导网络训练,分别负责像素级精度、结构一致性和视觉质量。

网络结构

[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting

整体网络设计

HAttMatting结构如图2所示,其使用ResNeXt作为主干网络,将block4中的高级特征图输入到ASSP中获得多尺度语义信息,使用block1中的低级特征图作为外观线索。HAttMatting使用通道注意提取金字塔特征,并对外观线索使用空间注意以抑制多余的背景细节,另外,使用PatchGAN的鉴别器网络提高 α\alpha 蒙版的视觉质量。

金字塔特征提取

如图2所示,对金字塔特征使用因子为4的上采样,然后使用全局池化概括特征图,之后采用共享权重的多层感知机提取语义属性,然后用一个sigmoid层来计算通道向的注意力图,并将其乘以上采样的金字塔特征来实现语义提取。通道向的注意可以选择适合图像抠图的金字塔特征,并保留FG轮廓和类别属性。金字塔特征是从深层 ResNeXt 块中学习的,这是一种高度抽象的语义信息,因此我们需要外观线索来生成 α\alpha 蒙版中的细节。

外观线索过滤

图像抠图需要精确的FG边界,而高级金字塔特征无法提供这样的纹理细节。因此,我们在 ResNeXt block1 和上采样操作之间架起了一个跳跃连接,它可以传输 α\alpha 蒙版生成的外观线索。block1可以从输入图像捕获图像纹理和细节,与第一次上采样拥有相同的空间分辨率。我们将从block1中提取的低级特征作为我们的外观线索。这些外观线索可以描绘复杂的图像纹理,与 α\alpha 蒙版感知所需的边界精度兼容。
尽管外观线索显示了足够的图像纹理信息,但只有FG内部或周围的区域能对 α\alpha 蒙版的生成有所贡献,因此,我们引入空间注意来过滤BG中的外观线索,同时强调FG中的线索。具体来说,我们使用内核大小 1×71\times77×17\times1 分别执行水平方向和垂直方向的注意。金字塔语义通过两个并行卷积与上述两个过滤核进一步处理,然后,它们的连接作为注意机制来处理初始外观线索,去除属于BG的纹理和细节。在此之后,我们结合过滤的外观线索和提取的金字塔特征,以生成 α\alpha 蒙版。

损失函数

[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting
Ladv,LMSEL_{adv}, L_{MSE}LSSIML_{SSIM} 可以分别从视觉质量、像素精度和FG结构相似性方面提升 α\alpha 蒙版。λ1\lambda _1λ2\lambda _2λ3\lambda _3 表示损失函数的平衡系数。
[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting
II 表示输入图像,AA 表示预测的 α\alpha 蒙版
[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting
Ω\Omega 表示像素集,Ω|\Omega|表示像素点的数量(输入图像的大小),αpi\alpha _p^iαgi\alpha _g^i 分别表示像素 ii 处的 α\alpha 预测值和真实值
[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting
μpμg\mu _p,\mu _gσpσg\sigma _p,\sigma_g 分别是 αpi\alpha _p^iαgi\alpha _g^i 的平均值和标准差

实验

[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting

[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting

[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting

[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting

[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting

[CVPR2020]Attention-Guided Hierarchical Structure Aggregation for Image Matting

参考

1.【抠图中的注意力机制】HAttMatting—让抠图变得如此简单!
2. Alpha通道的概念与功能