【论文阅读】Individual Tree-Crown Detection in RGB Imagery Using Semi-Supervised Deep Learning Neural Net
Individual Tree-Crown Detection in RGB Imagery Using Semi-Supervised Deep Learning Neural Networks
使用半监督深度学习神经网络的RGB图像中的单个树冠检测
本文思想
用激光雷达采集的数据做无监督检测,为RGB图像做自监督学习来生成初始训练数据。然后再基于少量人工注释将模型重新训练为创建完整的模型
- 无监督的LIDAR(激光雷达)算法生成初始树预测(LIDAR数据仅用于初始化网络训练。不用于最终预测步骤)
- 提取每棵树的边界框,并使用相应的RGB裁剪图训练初始的深度学习模型
-
以自我监督模型为起点,使用少量人工注释对模型进行重新训练,以纠正来自非监督检测的错误。
测试了三种无监督算法来使用LIDAR数据为自监督模型生成树,最后找性能最佳的在LIDAR点云中创建初始的自监督树预测。利用LIDAR数据主要是可以利用三维信息来大致的看树木在哪,但是普通的带高度的物体会对结果造成干扰,如石头和建筑也有高度
该算法使用树冠高度模型和树高到树冠宽度的阈值将LIDAR云聚类为单独的树,在每棵树的整个点集上自动绘制了一个边界框,以创建训练数据。通过在这些无监督标签上对RGB网络进行预训练,该模型可以学习到比仅使用人工注释的训练数据所能实现的树形和外观更广泛的变化
在使用RGB的目标检测阶段是利用刚刚无监督LIDAR算法生成的边界框来训练的,没有用到手工标注,所以可以说是自监督。
在RGB检测阶段使用retinanet深度学习框架,是一个one-stage的框架,该检测器允许像素信息在多个尺度上共享。
Retinanet与其他对象检测框架(如RCNN)的不同之处在于,它将对象检测和分类组合到单个网络中。这允许更快的训练,并且降低了对图像中框提议数量的敏感性。使用了在ImageNet数据集上预先训练过的resnet-50分类主干。文章也尝试了更深的体系结构(resnet-101和resnet-152),但发现设置除了会增加训练时间,没有其他改善。
对于每棵预测的树,模型都会返回一个边界框和一个置信度分数(0-1)。预测后,我们将每幅图像通过非最大抑制滤镜,以去除重叠超过15%的预测框,仅保持具有较高预测分数的框。最后,我们删除了置信度得分小于0.2的框。
自监督结果如下
然后作者又用少量的标注微调了网络,最后精度提高了