openMVG：正射投影影像的影像匹配

主要内容

本文是阅读论文[1]的一些笔记。

中心投影是目前最为常见的一种成像模式，然而也存在另外一种成像模式正射投影。正射投影并不是一种很常见的投影方式，但是研究正射投影依然非常有价值。在当中心投影拍摄过程中，如果焦距较大或拍摄目标都处于同一个平面，可以将其近似等同于正射投影（此处就不证明了，大概意思就是当Z值近似为0时就可以认为其实正射投影）。

成像模型

首先给出正射投影的成像关系：

{\begin{matrix} s x = X \\ s y = Y \end{matrix}

用P矩阵标定可以得到如下关系，假设外参数为

R

、

t

。

[\begin{matrix} x \\ y \\ s \end{matrix}] = [\begin{matrix} r_{11} & r_{12} & r_{13} & t_{1} \\ r_{21} & r_{22} & r_{23} & t_{2} \\ 0 & 0 & 0 & 1 \end{matrix}] [\begin{matrix} X \\ Y \\ Z \\ 1 \end{matrix}]

可以发现正射投影的影像与中心投影的差别较大，下图是Wiki上的一个示意图：

本质矩阵

中心投影影像具有自己的核线成像关系，正射投影影像也具有核线成像关系。下边对其进行推导。
首先假设 $I_{1}$ 的外方位元素（ $R_{1} = I, t_{1} = 0$ ）， $I_{2}$ 的外方位元素为（ $R_{2} = R, t_{2} = t$ ）。 $(X, Y, Z)$ 为物方一点， $(x_{1}, y_{1})$ 和 $(x_{2}, y_{2})$ 分别为对应两张照片上的像点。
则有以下关系：

s_{1} [\begin{matrix} x_{1} \\ y_{1} \end{matrix}] = [\begin{matrix} X \\ Y \end{matrix}]

s_{2} [\begin{matrix} x_{2} \\ y_{2} \end{matrix}] = [\begin{matrix} r_{11} & r_{12} \\ r_{21} & r_{22} \end{matrix}] [\begin{matrix} X \\ Y \end{matrix}] + [\begin{matrix} r_{13} \\ r_{23} \end{matrix}] Z + [\begin{matrix} t_{1} \\ t_{2} \end{matrix}]

两式整合可以得到：

[\begin{matrix} s x \\ s y \end{matrix}] = [\begin{matrix} r_{11} & r_{12} \\ r_{21} & r_{22} \end{matrix}] s_{1} [\begin{matrix} x_{1} \\ y_{1} \end{matrix}] + [\begin{matrix} r_{13} \\ r_{23} \end{matrix}] Z + [\begin{matrix} t_{1} \\ t_{2} \end{matrix}]

为消去

Z

的影像，两边同点乘

[\begin{matrix} r_{23} & - r_{13} \end{matrix}]

，得到如下公式：

x^{^{'}} r_{23} - y^{^{'}} r_{13} = x (r_{23} r_{11} - r_{11} r_{21}) + y (r_{23} r_{12} - r_{13} r_{23}) + r_{23} t_{1} - r_{13} t_{2}

又由于(

r_{3} = r_{1} \times r_{2}

)：

{\begin{matrix} r_{31} = r_{12} r_{23} - r_{22} r_{13} \\ r_{32} = r_{21} r_{13} - r_{11} r_{23} \end{matrix}

故上式变成（考虑到

s_{1}

s_{2}

不会对后续推导产生影响，后边直接舍去两个变量）：

x^{^{'}} r_{23} - y^{^{'}} r_{13} + x r_{32} - y r_{31} = r_{23} t_{1} - r_{13} t_{2}

该公式又可进一步整理成矩阵形式

因此可以得到新的本质矩阵

E

E = [\begin{matrix} 0 & 0 & a \\ 0 & 0 & b \\ c & d & e \end{matrix}] = [\begin{matrix} 0 & r_{32} \\ 0 & - r_{31} \\ r_{23} & - r_{13} & r_{13} t_{2} - r_{23} t_{1} \end{matrix}]

并且易得到

E

的一个约束:

a^{2} + b^{2} = c^{2} + d^{2}

同时考虑到对

E

乘以一个系数

λ

并不会破坏上述的等式关系，因此我们可以选择合适的系数，使得：

a^{2} + b^{2} = c^{2} + d^{2} = 1

影像匹配

影像匹配的主要目的是将两幅图像上的同名点进行匹配，通常而言都分为特征点匹配和几何误差滤除两步。特征点匹配主要是根据特征点的描述子之间的距离来选择距离最近的匹配点；当然第一步中通常都会存在大量的误匹配，因此需要根据一些几何约束对齐进行错误匹配的剔除，其中最常用的方法之一就是本质矩阵。参考第二节的描述，本质矩阵的主要内容就是核线关系。
在正摄投影影像中，由于 $E$ 只具有3个自由度，因此理论上只需要3个点即可求解出本质矩阵。接下来我们主要讨论如何使用3个点来求解出本质矩阵。
首先记匹配点误差为：

D = e + a x + b y + c x^{^{'}} + d y^{^{'}}

则针对3个点可以列出三个方程：

\begin{matrix} D_{1} = e + a x_{1} + b y_{1} + c x_{1}^{^{'}} + d y_{1}^{^{'}} \\ D_{2} = e + a x_{2} + b y_{2} + c x_{2}^{^{'}} + d y_{2}^{^{'}} \\ D_{3} = e + a x_{3} + b y_{3} + c x_{3}^{^{'}} + d y_{3}^{^{'}} \end{matrix}

为计算方便，首先消掉

e

，即：

\begin{matrix} B_{1} = D_{2} - D_{1} = a x_{21} + b y_{21} + c x_{21}^{^{'}} + d y_{21}^{^{'}} \\ B_{2} = D_{3} - D_{1} = a x_{31} + b y_{31} + c x_{31}^{^{'}} + d y_{31}^{^{'}} \end{matrix}

那么此时意味着，我们可以使用

c

、

d

表示

a

、

b

，为简化公式，可以表达成：

\begin{matrix} a = k_{1} c + k_{2} d + k_{3} \\ b = p_{1} c + p_{2} d + p_{3} \end{matrix}

将上述式子带入

a^{2} + b^{2} = 1

，可以得到一个关于

c

、

d

的表达式，同时使用

c^{2} + d^{2} = 1

将其中的

c

的2次项消除，可以得到：

g_{1} c d + g_{2} d^{2} + g_{3} = 0

将上式两边同乘

c

，然后再用

c^{2} + d^{2} = 1

将其中的

c

的2次项消除，又可以得到：

h_{1} c + h_{2} c d + h_{3} c d^{2} + h_{4} d^{3} = 0

将上述式子整理一下，又可以得到：

B [\begin{matrix} c \\ 1 \end{matrix}] = [\begin{matrix} g_{1} d & g_{2} d^{2} + g_{3} \\ h_{1} + h_{2} d + h_{3} d^{2} & h_{4} d^{3} \end{matrix}] [\begin{matrix} c \\ 1 \end{matrix}] = [\begin{matrix} 0 \\ 0 \end{matrix}]

由于上述方程一定有解，因此

d e t (B) = 0

，那么我们就得到了一个关于

d

的一元四次方程，根据公式可以求出d的解，从而解算出

E

。

现在我们已经清楚如何用三个点解算 $E$ ，那么接下来只需要参考Ransac的思路即可对匹配点进一步进行处理，得到没有匹配误差的点。

参考论文

[1] Two-View Orthographic Epipolar Geometry: Minimal and
Optimal Solvers
[2] Motion Estimation under Orthographic Projection