StereoDRNet:基于stereo的三维重建网络
点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
作者:红薯好吃
https://zhuanlan.zhihu.com/p/86151544
本文仅做学术分享,如有侵权,请联系删除。
论文题目:StereoDRNet: Dilated Residual Stereo Net
论文摘要:作者提出一种基于CNN的双目深度估计系统,通过双目预测到的深度图进行体积融合,从而得到场景的三维重建。作者提出的深度优化结构,产生视角连续的视差图并预测遮挡部分,这些都将帮助fusion系统进行几何连续的三维重建。在cost filtering部分作者利用3D空洞卷积获得了更好的滤波效果。该模型在KITTI2012,KITTI2015,ETH3D均达到SOTA。最后,作者证明了他们的系统产生了高质量的3D场景重建效果。
方法概括:
特征提取
采用孪生网络提取左右目图片特征,产生的特征图size为原图的1/4,通道数为32.在特征聚合这一块作者发现在这个任务中使用Vortex Pooling的效果优于SPP,故使用Vortex Pooling,如图1所示。
图1 Vortex Pooling architecture
成本项滤波
与PSM-Net的Stacked hourglass有些相似,对比PSM对应结构,作者的创新点在于使用了1,2,4三种系数的空洞卷积平行的结构。
图2 Proposed dilated cost filtering approach with residual connections
视差回归
模型的视差计算如公式(1)所示,加权候选视差。
损失函数采用Huber loss ,如公式(2)所示,
视差回归部分的损失函数,加权了成本项滤波输出的3个视差的结果,如公式(3)所示,
视差优化(划重点!!):
视差优化部分,通过引入重建误差图,几何一致误差图,和原图以及Occlusion损失的信息,来进一步优化视差,流程图如图3所示:
图3
重建误差图计算如公式(4)所示:
几何一致性误差图如公式(5)所示:
遮挡区域损失如公式(6)所示:
refinement后的视差损失公式(7)
最后,总的损失函数如公式(8)所示,其中 为第一步的视差损失,
为视差优化后的视差损失,
遮挡预测的损失。
实验结果:
SceneFlow Dataset结果如图4所示,可以看到作者提出的模型,相比PSM能够更好恢复细节信息,同时在遮挡区域中显示较低的误差。
图4
从下表中可以看到,在KITTI2012和KITTI2015数据集的在线测试中,作者提出的模型,均达到SOTA。
最后,作者利用了StereoDRNet的深度图,进行三维重建实验。从下图可以看到,StereoDRNet三维重建后的精度高于PSMNET,同时在黄色box区域取得了相比ground truth 更好的结果。