Understanding Deformable Alignment in Video Super-Resolution理解

这是今年董超老师团队当前挂在arxiv上的一篇很有深度的文章，深入分析了在视频超分辨中，基于光流的对齐方式与可变形卷积的对齐方式之间的联系与区别。本人目前阅读了这篇文章，在这里写下自己的浅薄理解，后面有未理解清楚的地方或者有新的理解时再补充，同时欢迎大家指正留言。

注：个人估计这篇文章还只是初稿，因为个人觉得有的地方还不是讲的很清楚，比如讲offset保真损失的时候，符号指代不是很明确，交代不够清楚。

研究目标
这篇文章的目的是理清可变形卷积应用于帧间对齐的本质，并分析它与基于光流的对齐方式的区别与联系，以及为什么基于可变形卷积的对齐方式会优于基于光流的对齐方式。

理论分析
1）回顾光流的对齐方式
光流简单来说，是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。

可视化效果如图所示：
Understanding Deformable Alignment in Video Super-Resolution理解

2）可变形卷积对齐方式

首先，可变形卷积的操作示意图所示：
Understanding Deformable Alignment in Video Super-Resolution理解
公式表示为：
y ( p ) = ∑ k = 1 n 2 w ( p k ) ⋅ x ( p + p k + Δ p k ) (1) y(p)=\sum_{k=1}^{n^2}w(p_k)\cdot{x(p+p_k+\Delta{p_k})}\tag{1} y(p)=k=1∑n2w(pk)⋅x(p+pk+Δpk)(1)
当可变形卷积用于对齐时，其操作原理如下图所示：
Understanding Deformable Alignment in Video Super-Resolution理解
公式表示为：
F ^ t + i ( p ) = ∑ k = 1 n 2 w ( p k ) ⋅ F t + i ( p + p k + Δ p k ) (2) \hat{F}_{t+i}(p)=\sum_{k=1}^{n^2}w(p_k)\cdot{F_{t+i}(p+p_k+\Delta{p_k})}\tag{2} F^t+i(p)=k=1∑n2w(pk)⋅Ft+i(p+pk+Δpk)(2)
然后将公式（1）表示为如下等式：
y ( p ) = ∑ k = 1 n 2 w ( p k ) ⋅ x k ( p ) (3) y(p)=\sum_{k=1}^{n^2}w(p_k)\cdot{x_k(p)}\tag{3} y(p)=k=1∑n2w(pk)⋅xk(p)(3)
其中：
x k ( p ) = x ( p + p k + Δ p k ) x_k(p)=x(p+p_k+\Delta{p_k}) xk(p)=x(p+pk+Δpk)
表示对于位置p而言，第k个偏移量对应的元素值。

之后将公式（3）一般化，因为按照以往卷积的方式，这里的k只能从1到 n 2 n^2 n2，为了更加一般化将这里的 n 2 n^2 n2用N取代，这样就可以学习到任意数目的offsets：
y ( p ) = ∑ k = 1 N w ( p k ) ⋅ x k ( p ) (4) y(p)=\sum_{k=1}^{N}w(p_k)\cdot{x_k(p)}\tag{4} y(p)=k=1∑Nw(pk)⋅xk(p)(4)
仅从公式（4）看，可以将这种操作等效于一个有 n 2 n^2 n2个通道的 1 × 1 1\times1 1×1卷积，这样的话就可以将二维平面上的卷积在纵向进行展开，每个通道与各个位置的偏移量对应，这个操作被称作spatial warping。之后再进行正常的卷积操作，即可得到warping后的特征。操作示意图如下所示（以 3 × 3 3\times{3} 3×3的核为例）：
Understanding Deformable Alignment in Video Super-Resolution理解
为了验证何种分解方式，作者做了实验进行验证：

根据公式（4），当N=1时，相当于是一个单通道的1$\times$1卷积，此时可变形卷积对齐等效于基于光流的对齐方法

为了验证这个结论，作者做了如下实验：
Understanding Deformable Alignment in Video Super-Resolution理解

Where does deformable alignment gain the extra performance in comparison to flow-based alignment?

结论：可变形卷积对齐方式优于基于光流的对齐方式的原因在于offset的差异性，这种差异性使得各个offset之间可以互补，从而实现更加准确对齐。

作者做了如下实验说明：
Understanding Deformable Alignment in Video Super-Resolution理解
Is higher offset diversity always better?

作者做了如下实验说明：

结论：无限制的增加并不能带来性能上的持续提升，而是会达到一个饱和状态。
Understanding Deformable Alignment in Video Super-Resolution理解

Can we increase the offset diversity of flow-based alignment?

结论：可以

作者做了如下实验说明：
Understanding Deformable Alignment in Video Super-Resolution理解
特征对齐与图像对齐的差异

**结论：**基于特征的对齐方式优于基于图像的对齐
Understanding Deformable Alignment in Video Super-Resolution理解

过去可变形卷积对齐操作在时，存在的问题是训练不稳定（学习到的offset不受约束，超越了图像的边界，被称为Overflow），对于这个问题，作者提出一个Offset-fidelity 损失，用来约束所学习到的offset，使其训练更加稳定，公式表示为：
L ^ = L + λ ∑ n = 1 N L n (5) \hat{L}=L+\lambda\sum_{n=1}^{N}L_n\tag{5} L^=L+λn=1∑NLn(5)
L指代cb损失（L1损失的改进版，多了一项极小值 ϵ \epsilon ϵ）
其中：
L n = ∑ i ∑ j H ( ∣ x n , i j − y i j ∣ − t ) ⋅ ∣ x n , i j − y i j ∣ (6) L_n=\sum_i\sum_jH(|x_{n,ij}-y_{ij}|-t)\cdot|x_{n,ij}-y_{ij}|\tag{6} Ln=i∑j∑H(∣xn,ij−yij∣−t)⋅∣xn,ij−yij∣(6)
H是一个阶跃函数。

实验验证：
Understanding Deformable Alignment in Video Super-Resolution理解

上图中未使用offset保真损失的模型（对应蓝色曲线）在300K迭代次数时，出现损失上升的情况，这里说明出现了offset溢出情况。而使用了该损失的模型（对应橙色曲线）则稳定的下降，这说明了该函数在抑制offset溢出方面的有效性。
Understanding Deformable Alignment in Video Super-Resolution理解

结论

通过分析基于光流的对齐方法和可变形对齐方法的联系，发现可变形卷积可以分解为spatial warping和卷积的组合，当offset为1时等价于基于光流的对齐方法，进一步分析可变形卷积对齐方式，发现它能够取得优于光流的对齐方法在于多个offset的学习，各个offset可以实现互补以达到更好的对齐效果，根据这一结论，我们可以将这种多offset的学习引入到基于光流的对齐方法，指导光流的学习，改进基于光流的对齐方法。此外，通过分析可变形卷积对齐方法在训练中存在的不稳定原因（所学的offset不受约束，超出了图像索引范围），提出了一个offset-fidelity 损失用于约束offset的学习。实验证明了这些结论的可靠性。

Understanding Deformable Alignment in Video Super-Resolution理解

相关推荐