基本情况

摘要

1 介绍

2 Related work

3 Model Architecture

4 Task

4.3 Semantic Labels

5 Training

5.1 Training procedure

5.2 Data Augmentation

基本情况

题目：Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture
出处：Eigen, D., & Fergus, R. (2015). Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. In Proceedings of the IEEE international conference on computer vision (pp. 2650-2658).
代码地址：https://cs.nyu.edu/~deigen/dnl/

摘要

在本文中，我们使用单个多尺度卷积网络体系结构解决了三种不同的计算机视觉任务：深度预测，表面法线估计和语义标记。我们开发的网络仅需很小的修改就可以自然地适应每个任务，从输入图像直接回归到输出图。我们的方法使用一系列比例尺逐步完善预测，并捕获许多图像细节，而无需任何超像素或低级分割。我们在所有这三个任务的基准上均实现了最先进的性能。

1 介绍

场景理解是视觉中的一个中心问题，涉及很多方面。其中包括描述不同场景部分身份的语义标签；描述物理几何形状的表面法线或深度估计；个体对象范围的实例标签；以及提供人们与环境可能的互动的能力。这些像素中的许多像素通常用像素图表示，其中包含每个像素的值或标签，例如包含每个像素可见对象的语义标签或表面法线方向的矢量坐标的地图。

在本文中，我们使用单个通用体系结构解决了其中三个任务，即深度预测，表面法线估计和语义分割。我们的多尺度方法可以直接从输入图像生成像素图，而无需使用低级超像素或轮廓，并且可以使用一系列分辨率提高的卷积网络堆栈来对齐许多图像细节。在测试时，所有三个输出都可以实时（30Hz）生成。我们在所调查的所有三个任务上均取得了最新的成果，证明了该模型的多功能性。

为像素图回归开发通用模型有几个优点。首先，可以快速开发对新任务的应用程序，其中许多新工作都在于定义适当的训练集和损失函数。因此，我们的工作是朝着建立可用于许多应用的现成的回归模型迈出的一步。另外，使用单一架构有助于简化要求多种模式的系统的实现，例如机器人技术或增强现实技术，反过来又可以帮助推动这些领域的研究进展。最后，在深度和法线的情况下，许多计算可以在模态之间共享，从而使系统更高效。

2 Related work

对于语义分割, 相比于只使用局部特征或者离散的proposals描述. 本文的网络使用局部和全局预测. 并且能够用于三个不同的任务.

本文使用三种不同的尺度去生成特征并且改善预测到更高的分辨率.

之前的语义分割方法是使用RGB数据. 大多数使用局部特征来对过度分割的区域进行分类，这是通过全局一致性优化(如CRF)来实现的. 本文显示进行一致的全局预测, 然后进行迭代局部细化. 这么做可以让局部网络意识到他们在全局场景上的地位, 并且可在他们精确的预测中使用这些信息.

Gupta首先通过生成轮廓来创建语义分割，然后使用手动生成的特征和SVM或用于对象检测的卷积网络对区域进行分类。值得注意的是，还执行amodal完成，其通过比较来自深度的平面来在图像的不同区域之间传输标签。

本文的方法, 首先模型在最粗糙的范围内具有大的全图像视野. 对应不同的阶段学习不同的网络.

3 Model Architecture

本文的模型是一个多尺度深度网络, 首先根据整个图像预测粗略的全局输出, 然后使用更精细的局部网络进行细化.

模型先是用别的模型初始化.

网格结构方面与文献《Depth map prediction from a single image using a multi-scale deep network》基本相似，可以说是在这篇paper的基础上做的修改，区别在于：

（1）采用了更深层的网络

（2）增加了第三个尺度的网络，使得我们的输出是更高分辨率的图片（之前的paper输出大小是55*77，现在最后网络的输出大小是109*147）

（3）与之前的思路有点不同，之前采用的方式是，先训练scale1，训练完成后，以scale 1的输出作为scale 2的输入。现在所采用的方式是：scale 1和scale 2联合训练，最后固定这两个尺度CNN，在训练scale 3

论文笔记_S2D.33_2015-ICCV_使用常用的多尺度卷积结构预测深度、表面法线和语义标签

Scale1: Full-Image View

网络的输入：原始图片，输入图片大小为三通道彩色图片. 网络的输出：19*14大小的图片. 然后上采样到74X55.

Scale2: Predictions

串联"scale1的输出特征"和"卷积池化后的原图特征"进行卷积训练. 之后再上采样.

Scale3: Higer resolution

多加了这个尺度的网络，仅仅只是为了获得更高分辨率的输出.

串联"scale2的输出特征"和"卷积池化后的原图特征"进行卷积训练.

4 Task

4.3 Semantic Labels

使用像素级softmax分类去预测每个像素类别标签,

单个像素交叉熵损失:

论文笔记_S2D.33_2015-ICCV_使用常用的多尺度卷积结构预测深度、表面法线和语义标签

5 Training

5.1 Training procedure

训练使用SGD分为两个阶段:

1 连接Scale1和2一起训练(这和输出有关系, 以为Scale1的输出不是原始图像的大小, 语义分割肯定行不通, 但是Scale2是, 这也间接说明了Scale3仅仅是为了调节精准度而已).

2 固定之上的Scale参数, 训练Scale3. 由于输入Scale3的像素数量Scale2的4倍, 为了加速训练随机裁剪74X55的大小, 首先是把图像通过Scale1和2前向传播, 然后裁剪结果作为Scale3的输入.

5.2 Data Augmentation

在旋转, 平移, 颜色, 翻转和对比中使用随机缩放.

论文笔记_S2D.33_2015-ICCV_使用常用的多尺度卷积结构预测深度、表面法线和语义标签

基本情况

摘要

1 介绍

2 Related work

3 Model Architecture

4 Task

4.3 Semantic Labels

5 Training

5.1 Training procedure

5.2 Data Augmentation

相关推荐