Automatic Pixelwise Object Labeling for Aerial Imagery Using Stacked U-Nets解读

Automatic Pixelwise Object Labeling for Aerial Imagery Using Stacked U-Nets解读

 摘要 - 航空影像中物体标记的自动化是一项计算机视觉任务,具有许多实际应用。像能源勘探这样的领域需要一种自动化方法来每天处理连续的图像流。在本文中,我们提出了一个流水线来解决这个问题,使用一堆端到端的卷积神经网络(U-Net架构)。每个网络都可以工作后处理器到前一个。我们的模型在两个不同的数据集上胜过当前的最新技术:Inria Aerial Image Labeling数据集和Massachusetts Buildings数据集,每个数据集都具有不同的特征,如空间分辨率,物体形状和比例尺。此外,我们通过处理子采样图像并稍后向上采样按像素标记来实验验证计算时间节省。节省的这些资源对分割质量的影响可以忽略不计。虽然本文进行的实验仅涵盖航空影像,但所呈现的技术是通用的并且可以处理其他类型的影像的图像。

优点:

1利用了底层的特征(同分辨率级联)改善上采样的信息不足。

2在小数据集上也能train出一个好的模型

总体结构

Automatic Pixelwise Object Labeling for Aerial Imagery Using Stacked U-Nets解读

将输入图像分成224x224x3像素的较小patch。这些pach是模型的输入,输出是裁剪预测mask。通过连接这些小的输出,我们可以得到全尺寸的预测mask。将输入图像分成224x224x3像素的较小patch。这些pach是模型的输入,输出是裁剪预测mask。通过连接这些小的输出,我们可以得到全尺寸的预测mask

基础网络结构

Automatic Pixelwise Object Labeling for Aerial Imagery Using Stacked U-Nets解读 

 Automatic Pixelwise Object Labeling for Aerial Imagery Using Stacked U-Nets解读

 融合的部分代码

 Automatic Pixelwise Object Labeling for Aerial Imagery Using Stacked U-Nets解读

(1)训练:用Nadam优化器于训练模型。对于第一级U-Net1e-3的学习率用于50个轮,然后1e-4用于另外50个轮。批量大小为128patches 。第二级U-Net使用1e-4的学习率,并接受50个轮的训练。在训练中还应用了数据增强:水平翻转、垂直翻转和旋转。数据增强可以减少对输入数据的依赖,对模型推广到除训练区域的其他区域非常有用。

(2)预测:为了进行更可信的预测,增加测试次数,在训练时应用的同一组变换在预测之前同样应用于每个图像块。 所有变换的预测求得平均值。 该平均值是最终的预测分数。 然后,应用阈值处理将分数转换为掩码的二进制值。 阈值是我们使用交叉验证集调整的超参数。

数据集

 文章使用两个数据集Inria Aerial Image Labeling dataset 和 Massachusetts Buildings dataset。它们涵盖了不同的图像特征如空间分辨率,对象类型,形状和大小 。

马萨诸塞州建筑物数据集:

包含1511500x1500像素的航拍影像,覆盖波士顿地区的城市和郊区。每幅图像占地面积2.25平方公里分辨率1平方米/像素。这些图像被随机分成大小分别为137,410的训练,验证和测试集。数据集的一个样本如图5所示。

Automatic Pixelwise Object Labeling for Aerial Imagery Using Stacked U-Nets解读

Inria的数据集:

专门用于解决航空影像的自动像素标记问题。数据集由两个子集组成:训练集和测试集。每个子集覆盖405平方公里的面积,空间分辨率为0.3米。提供的数据是3波段彩色正射影像。训练数据标有两个类别:建筑和不建筑。

训练数据集包括奥斯汀,芝加哥,基察普县,西提洛尔和维也纳,而测试集涵盖了一系列不同的地区:贝林翰,布卢明顿,因斯布鲁克,旧金山,东蒂罗尔。对于这两个子集中的每个区域,都有36个大小5000x5000像素的图块,覆盖1500x1500米区域。

优势:1 训练和测试集涵盖了不同的地区,因此我们将能够判断我们的模型推广到新地区的能力。2覆盖地区在城市密度上有很大差异。数据集的这种可变性确保了该模型将学会标注不同的地区并更多地了解建筑物的结构。

Automatic Pixelwise Object Labeling for Aerial Imagery Using Stacked U-Nets解读

实验

Automatic Pixelwise Object Labeling for Aerial Imagery Using Stacked U-Nets解读

Automatic Pixelwise Object Labeling for Aerial Imagery Using Stacked U-Nets解读

低分辨率对结果的影响:尝试使用相同数据的不同分辨率,以较低的速率重新采样数据。我们的实验以两种分辨率进行:1/21/4原始分辨率。为了确保不同分辨率之间的公平比较,我们使用简单线性将预测后的较低分辨率的掩模上采样到原始分辨率

结论:较低分辨率非常接近原始分辨率的结果。预测时间大大节省。 此外,下采样和上采样的开销可以忽略不计(0.06/图像)。 表明可以用较低的分辨率代替非常高的分辨率,以获得相当大的计算时间增益。