Object Stereo — Joint Stereo Matching and Object Segmentation

对象立体化-联合立体匹配与对象分割

摘要

本文提出了一种联合立体匹配和目标分割的方法。在我们的方法中，将3D场景表示为视觉上不同且空间相关的对象的集合。每个对象都具有三个不同方面的特征：颜色模型，近似对象视差分布的3D平面以及新颖的3D连接属性。受图像分割的马尔可夫随机场模型（Markov Random Field models）的启发，我们将对象级颜色模型作为一种软约束，可以以有力的方式帮助深度估计。特别地，我们的方法能够恢复在一个输入视图中被完全遮挡的区域的深度，据我们所知，这对于立体匹配来说是新的。我们的模型被公式化为通过融合运动进行优化的能量函数。我们在具有挑战性的图像对以及标准基准上显示了高质量的视差和对象分割结果。我们相信我们的工作不仅证明了图像分割和立体匹配领域之间的新颖协同作用，而且还可以激发自动和交互式对象级场景操纵领域的新工作。

介绍

在过去的二十年中，在图像分割和立体匹配领域进行了许多高质量的研究。这些工作存在一些重叠，因为许多立体方法（实际上，米德尔伯里基准测试（Middlebury benchmark）[20]中几乎所有排名靠前的方法）都以某种方式使用了图像分割。但是，现有的立体方法通常使用低级分割方法将图像过度分割为超像素。相反，在这项工作中，我们将将分割和立体匹配相结合的想法推向了更高的层次-对象层次。
为此，我们将2D图像中对象级别分割的最新思想扩展到3D场景。特别是，我们基于使用高阶马尔可夫随机场模型进行图像分割的工作主体，该模型源自基于图割的交互式图像分割的开创性工作[19，5]。

我们将3D场景建模为3D对象的集合。我们假定

（1）每个对象在3D中都是紧凑的（compact）；
（2）每个对象在3D中都是连接的；
（3）对象的所有可见部分都具有相似的外观。
（4）另外，我们倾向于使用具有几个大对象的场景解释而不是具有许多小对象的场景解释。

最后，我们假设标准立体照片的一致性，这意味着我们希望匹配的对象在两个输入视图中具有相似的颜色。图1显示了我们的方法产生的样本结果（对象分组和视差）。

论文笔记_Object Stereo — Joint Stereo Matching and Object Segmentation

在正式定义场景模型之前，让我们强调一下上述在立体声匹配背景下的假设的关键优势。

首先，紧凑性几乎用于二维图像分割和立体匹配的所有工作。这里我们以几种方式对其进行编码：我们假设

（1）对象是相干的，即，一个视图中的大多数相邻像素对都属于同一对象；
（2）物体内的深度变化是平滑的；
（3）对象在3D模式中倾向于平面化。请注意，平面偏置的概念与所有对象都是平面的假设不同，许多先前的方法已经做出了这种假设。

据我们所知，第二个先验对象的3D连接尚未在立体匹配的背景下使用。它指出，仅当图像中不连续的2D区域被深度较小（即更靠近相机）的遮挡对象隔开时，它们才可能属于同一对象。 2D交互式分割的最新工作采用了类似的约束条件，并获得了令人印象深刻的结果[24]。但是，在2D设置中，需要用户输入以确认对象确实是2D连接的。与此相反，3D连接性几乎始终是正确的，因此我们可以在全自动系统中使用它。在图1b的右上方区域可以观察到我们的技术在存在困难闭塞的情况下的成功之处，尽管通过2D断开连接，通过木格中的孔可见的背景表面仍被准确地检测为单个对象。同时，场景前面的两个绿色圆锥无法分组为单个对象，因为它们前面没有遮挡对象。

第三个类似的外观（similar appearance）是图像分割中使用的标准自相似性术语[19]。它受以下事实的启发：场景中的每个对象都有紧凑的颜色分布。在这项工作中，我们将颜色用作唯一的外观提示，但也可以使用其他功能（例如纹理）。第四先验，鼓励用很少的对象进行场景解释，防止单个像素被解释为单个对象，并已成功地用于对象分割[8，14]。

以上假设转化为我们方法的两个重要属性。第一个显而易见的是，我们的颜色模型将颜色分割引入了立体匹配过程。单一颜色模型很好地描述了具有同质颜色的未纹理化区域，因此将其分配给同一对象。与平面偏差（planar bias）一起，此属性允许我们的算法将视差扩展到未纹理化的区域并精确捕获视差不连续性。

第二个属性超出了这个范围，据我们所知，现有的立体声方法中没有。它涉及在存在复杂遮挡的情况下将视差分配给较小的不连续背景区域的问题。例如，再次考虑通过图1中的木格中的孔可见的绿色小背景区域。对于现有的立体方法，将每个这样的区域孤立地考虑，由于可能缺少像素，很难或什至不可能分配正确的视差。纹理和部分（或完全）遮挡的其他视图。在这两种情况下，平滑度项将有利于分配前景视差。另一方面，对于人类观察者而言，基于表面颜色，前景/背景分配很容易。我们的算法采用对象和颜色模型以及遮挡推理，同样能够分配正确的视差。即使对于沿右图像边缘的表面斑块（在另一视图中完全遮挡）也是如此。同样，我们的方法也可以处理完全没有纹理的背景区域，因此不包含视差提示。

让我们简要地考虑一下我们工作的可能应用。除了能够准确地重建困难的立体场景外，我们的工作还可以在自动和交互式对象级场景操纵领域中实现并激发新的工作。随着傻瓜相机进入消费市场，迫切需要将对象级别的分割从2D推进到3D，以实现更好的图像处理和编辑技术。诸如我们的方法所提供的3D对象级分割对于前景区域的交互式提取以及2D / 3D修复也将很有用。另一个例子是图像重新定位，最近发现具有深度的物体可以提供更好的结果[17]。

论文笔记_Object Stereo — Joint Stereo Matching and Object Segmentation

...

结论

我们提出了一种用于立体匹配和目标分割的组合算法。我们的模型将场景表示为少量对象。假定对象近似为平面，并包含一个颜色模型。对象级使我们的算法能够利用颜色分割作为一种软约束并处理困难的遮挡情况，而这是竞争立体方法无法实现的。此外，我们引入了3D连接性约束，该约束可增强对象分配与立体几何的一致性。

参考

立体匹配

https://blog.****.net/lansebandaoti/article/details/99412827

立体匹配是立体视觉研究中的关键部分。其目标是在两个或多个视点中匹配相应像素点，计算视差。通过建立一个能量代价函数，对其最小化来估计像素点的视差，求得深度。

立体匹配算法 https://www.cnblogs.com/ding-jing/p/8654137.html

在立体匹配中，匹配问题可以看成是寻找两组数据相关程度的过程。立体匹配算法由多种分类。
①根据算法运行时约束的作用范围：分为局部（local）匹配算法和全局（Global）匹配算法。
②基于生成的视差图：可分为稠密（Dense）匹配和稀疏（Sparse）匹配。稠密匹配：是基于生成的视差图，对于所有像素都能生成确定视差值，称为稠密匹配。稀疏匹配：只选择关键像素点[通常为角点或者边缘点]计算视差值的方法称为稀疏匹配，该算法计算速度较快，但后续还需要通过插值算法计算缺失像素点的视差值，因此应用场景上有很大限制。

Disparity（视差）简单解释

https://blog.****.net/weixin_40367126/article/details/90753760

http://www.elecfans.com/d/863829.html

在研究双目深度图估计时，经常会使用D=B×f/d（D：Depth,B:Baseline,f:focal,d:disparity）这个公式，从视差推理出深度，那么这里的d到底怎么理解？
现在，伸出你左右手的食指，放在离眼睛不同距离的位置上。先闭上左眼看两只手指，再闭上右眼观察两只手指，可以发现，左右眼看到的东西是不一样的，其次，**距离眼睛近的物体移动的距离（视差）更大，距离眼睛远的物体移动的距离（视差）更小。**将同一空间物理点在不同图像中的映像点对应起来，这个差别，我们称作视差(Disparity)图像。
（Disparity value）视差是指在两个摄像机图像之间的像素位置的差异。假设立体视觉相机中的左图像在位置(1,30)具有像素，并且相同的像素在右图像中的位置(4,30)存在，视差值或差值为(4-1)=3。

概率图之马尔可夫随机场（Markov Random Field，MRF）

https://blog.****.net/hohaizx/article/details/82868843

论文笔记_Object Stereo — Joint Stereo Matching and Object Segmentation

Object Stereo — Joint Stereo Matching and Object Segmentation

摘要

介绍

结论

参考

立体匹配

Disparity（视差）简单解释

概率图之马尔可夫随机场（Markov Random Field，MRF）

相关推荐