DeepFruits: A Fruit Detection System Using Deep Neural Networks CV农业一个生产应用了解

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

基于深度神经网络的水果检测系统


提示:以下是本篇文章正文内容,下面案例可供参考

摘要

本文提出了一种使用深度卷积神经网络进行水果检测的新方法。目的是建立一个准确,快速和可靠的水果检测系统,这是自主农业机器人平台的重要组成部分;它是估计水果产量和自动收获的关键要素。深度神经网络的最新工作已导致开发了一种称为“基于快速区域的CNN(Faster R-CNN)”的最新对象检测器。通过转移学习,我们将该模型改编为使用从两种模式获得的图像进行水果检测的任务:彩色(RGB)和近红外(NIR)。探索了早期和晚期融合方法以结合多模式(RGB和NIR)信息。这导致了一种新颖的多模式Faster R-CNN模型,与先前的F1得分相比,该模型可以实现最新的结果,同时考虑了精度和召回性能,从0.807提高到0.838进行检测甜椒。除了提高准确性外,此方法还可以更快地部署到新的水果上,因为它需要边界框注释而不是像素级注释(注释边界框执行速度大约快一个数量级)。对模型进行重新训练以执行7种水果的检测,整个过程需要4个小时来注释和训练每种水果的新模型。

一、介绍

根据[1],在农业行业(尤其是园艺业)中寻找熟练的农业劳动力是该行业中最需要成本的因素之一。这是由于诸如电,水灌溉,农用化学药品等供应品的价值上升。这正驱使农场企业和园艺业面临利润微薄的压力。在这些挑战下,粮食生产仍然需要满足不断增长的世界人口不断增长的需求,这带来了一个严峻的问题。通过减少人工成本(更长的耐力和高重复性)并提高水果质量,机器人收割可以为该问题提供潜在的解决方案。由于这些原因,在过去的三十年中,人们越来越关注使用农业机器人来收获水果和蔬菜[2,3]。此类平台的开发包括众多挑战性任务,例如操纵和拣选。但是,开发精确的水果检测系统是朝着全自动收获机器人迈出的关键一步,因为这是在随后的操纵和抓握系统之前的前端感知系统。如果未检测到或看不到水果,则无法采摘。如图1所示,由于各种因素(包括光照变化,遮挡以及水果显示出与背景相似的视觉外观),此步骤具有挑战性。要克服这些因素,可以使用通用的模型对于亮度和视点变化而言,它是不变的且具有鲁棒性,并且需要高度区分的特征表示。

(为了降低人工成本,以及提高自动采摘水果的自动化)

DeepFruits: A Fruit Detection System Using Deep Neural Networks CV农业一个生产应用了解
在这项工作中,我们提出了一种基于深度卷积神经网络(DCNN)的快速训练(在K40 GPU上约2小时)和实时水果检测系统,该系统可以很好地概括具有预训练参数的各种任务。使用最少数量的训练图像,它也可以轻松地适应不同类型的水果。此外,我们介绍了将信息的多种形式(彩色和近红外图像)与早期和晚期融合相结合的方法。为了进行评估,与以前的工作相比,我们展示了定量和定性结果[4]。因此,本文的贡献是:

•开发高性能的水果检测系统,该系统可以使用已在大型数据集(如ImageNet [5])上进行过预训练的DCNN,以少量的图像快速进行训练。
•提出了一种多模式融合方法,该方法将来自彩色(RGB)和近红外(NIR)图像的信息相结合,从而实现了最新的检测性能。
•通过开放的数据集和教程文档将我们的发现返回给社区[6]。

据我们所知,这是将RGB和NIR多模式图像融合到DCNN框架中进行水果检测的首次尝试。我们使用标准评估指标,精确度召回曲线和F1分数[7](即精确度和召回率的谐波平均值),使用从白天和黑夜获取的三个商业地点收集的数据进行广泛的评估。该数据集以及带注释的地面真相图像和标记工具将在此项工作发表后分发,以鼓励在相关领域中进行进一步的研究。本文的其余部分包括以下内容。第2节介绍相关工作和背景。第三部分介绍了我们以前使用具有手工特征的条件随机场(CRF)的作品与使用基于快速区域的卷积神经网络(R-CNN)进行水果检测的拟议方法之间的描述性比较。本节还介绍了多模式融合方案。我们在第4节中演示了实验结果。在第6节中得出了结论。

二、相关工作

(农业生产中对水果的各种实际问题,生产工具,颜色,形状,大小,纹理和反射特性。)

尽管许多研究人员已经解决了水果检测的问题,例如[8-13]中提出的工作,但是仍然存在创建快速可靠的水果检测系统的问题,正如[14]的调查中发现的那样。这是由于田间环境中水果的外观变化很大,包括颜色,形状,大小,纹理和反射特性。此外,在这些设置中的大多数设置中,部分摘取了果实,并不断改变光照和阴影条件。文献中提出的各种著作都将水果检测问题作为图像分割问题(​​即,水果与背景的对比)。 Wang等。 [11]研究了用于产量预测的苹果检测问题。他们开发了一种基于苹果的颜色和独特的镜面反射图案检测苹果的系统。进一步的信息(例如苹果的平均大小)被用于删除错误的检测结果或分割可能包含多个苹果的区域。另一个启发式方法是仅接受那些大部分为圆形的区域作为检测。 Bac等。 [12]提出了甜椒的分割方法。他们使用了六波段多光谱相机,并使用了一系列功能,包括原始多光谱数据,归一化差异指数以及基于熵的纹理特征。在高度受控的温室环境中进行的实验表明,这种方法产生了相当准确的分割结果。但是,作者指出,建立一个可靠的障碍物图还不够准确。洪等。 [13]提出使用条件随机场进行杏仁分割。他们提出了一种五类分割方法,该方法使用稀疏自动编码器(SAE)学习了功能。这些功能随后在CRF框架中使用,并显示为
胜过以前的工作。他们实现了令人印象深刻的分割性能,但未执行对象检测。此外,他们指出,遮挡是一项重大挑战。凭直觉
一种方法只能应对低水平的咬合。最近,Yamamoto等人。 [10]通过首先执行基于颜色的分割来执行番茄检测。然后,使用颜色和形状特征来训练分类器和回归树(CART)分类器。这产生了分割图,并将连接的像素分组为区域。宣布每个区域都是检测区域,并减少了错误警报的数量。
他们在受控温室环境中使用随机森林训练了非水果分类器。在上述所有工作中,都采用了像素级分割的对象检测方法,并且这些工作大多数都以检测水果为主要目的,以进行产量估算[8,11]。进行精确的水果检测的有限研究已经在受控温室环境中对水果进行了检测。因此,在极富挑战性的条件下检测水果的问题仍未解决。这是由于在农业环境中目标对象的外观具有很大的可变性,这意味着经典的滑动窗口方法虽然在选择的图像数据集上进行测试时表现出良好的性能[15],但却无法处理在实际服务器场设置中部署时,目标对象的比例和外观。

三、使用的方法

R-CNN的模型,FRscore的方法

(省略不怎么会)

四、实验结果

(没兴趣)

五、总结

我们提出了一种基于视觉的水果检测系统的方法,该系统可以通过田间农场数据集执行高达0.83 F1的评分,保持快速检测和低负担的地面真相注释。与我们以前的基于像素的0.80检测器相比,这是一个很有竞争力的结果。我们还展示了定性结果,以显示使用小型数据集训练的模型能够很好地推广到完全独立的(看不见的)环境。
在开发该系统时,我们基于预训练的ImageNet模型对VGG16网络进行了微调。在早期和晚期融合网络中对RGB和NIR多模式信息的新颖使用在单个DCNN上提供了改进。此外,我们调查了区域提议网络的性能,以缩小性能下降的可能瓶颈。通过开放的数据集和教程文档,我们的发现将返回给相关社区。
未来的工作包括将拟议的算法与我们定制的收割机器人集成在一起,并利用Amazon Mechanical Turk或其他外包供应品来收集更多种水果的地面真相注释,以实现更准确的性能。