图匠数据等提出高精度零售货架姿态估计算法GSPN
导语
近日,ImageDT图匠数据联合江西科技师范大学在《IEEE Transactions on Industrial informatics》(国际工业电子学会顶刊/中科院A类期刊/影响因子9.112)发表论文《Geometry Supervised Pose Network for Accurate Retail Shelf Pose Estimation》,提出了一种新的单目货架姿态估计算法,能高效并精准的完成零售场景中货架三维姿态的估计,可以为零售相关商品检测、商品识别等领域的任务提供高质量的数据源,具有极大的应用价值与前景。
三维目标姿态估计(3D Object Pose Estimation,OPE)作为计算机视觉领域中的一项基础研究方向,主要通过算法来完成图片或者视频中目标的姿态估计。此技术对图像识别、检测和分割等任务有着非常大的帮助,因此,在计算机视觉领域有着十分广泛的应用。
在当前的OPE方法中,大多以自然场景下的目标,如:行人、建筑物等作为姿态估计对象。近年来随着零售行业的快速发展,计算机视觉这一新兴技术也被应用其中,其应用的主要方向包含:商品识别、商品检测等。计算机视觉技术的应用,不仅大大降低了企业成本,更帮助企业有效提升工作效率和质量。
以零售领域线下渠道核查业务来举例说明,不规范的拍照方式容易产生大量低质量图片(如:货架姿态偏角较大),而这些低质量图片对后续的图像分析如:商品检测、商品识别会产生巨大影响,传统的OPE方法无法满足自然场景中货架姿态估计的精度要求。为克服这一问题,ImageDT研发团队提出了一种新的单目货架姿态估计算法,既可以满足工业产品的精度要求,也可以达到非常高的处理速度。
主要贡献:
(1)首次将CNN应用于单目货架3D姿态估计领域,并在一个端到端的网络中对货架3D姿态估计进行了一系列探索。
(2)提出了一种新的三维姿态估计网络,称为几何监督姿态估计网络(GSPN),通过学习二维图像空间中,货架照片的几何信息并通过该信息监督货架三维姿态估计。
(3)为了进一步推动货架姿态估计方向的学术研究以及工业应用,采集了一个具有多角度以及完整标注信息的零售货架姿态数据集(RSPD)。
(4)在实际产品应用中,该技术为提高商品检测、识别准确性提供了高质量样本筛选策略。
模型结构:
该技术的Backbone网络为VGG-16,通过辅助学习的方式完成图片中货架图像的几何特征学习,并为货架的三维姿态估计目标提供监督信息,其结构如图1所示:
(图1-几何监督姿态估计网络整体框架)
损失函数:
此外,为提升算法的估计精度,该技术联合三维货架姿态估计以及线段检测,采用一个融合货架三维姿态学习的损失函数来完成训练。该损失函数为联合模型多头损失函数,如图2所示:
(图2-联合模型多头损失函数)
实验和结果:
在探索货架姿态估计算法方面,共完成5组实验探索,为BL-RGB,BL-LSD,BL-Fusion,L2SD,GSPN,其中BL-RGB,BL-LSD以及BL-Fusion均在PoseNet算法的基础上进行改进完成,并在RSPD数据集上,对提出的方法与经典的目标姿态估计算法进行比较,验证出本方法在货架姿态估计精度上,具有非常明显的优势。
下表展示了论文提出方法和FFPVA以及PoseNet方法在零售货架姿态数据集(RSPD)上的实验结果,Pitch Model,Yaw Model以及Roll Model分别代表Pitch、Yaw以及Roll单一维度学习的货架姿态估计结果。
下表展示了论文提出方法和FFPVA以及PoseNet方法在零售货架姿态数据集(RSPD)上的实验结果,Joint Model and Single-Head Loss,Joint Model and Multi-Head Loss分别代表联合三维货架姿态估计、线段检测的单头损失函数和多头损失函数。
结果可视化:
(图3-在不同的数据情况下,真实标签,BL-RGB,BL-LSD,BL-Fusion,L2SD和GSPN结果)
图3为标签、BL-RGB、BL-LSD、BL-Fusion、L2SD和GSPN在不同场景中的货架姿态估计结果,结果显示GSPN优于其它四种方法,特别是当类标存在错误的情况下,GSPN的估计结果仍能保持正确。
零售货架数据集(RSPD):
(图4-零售货架姿态数据集(RSPD)中的样本和类标展示)
图4为零售货架姿态数据集(RSPD)中的样本和类标展示,A为数据样本和正确的标签,B为数据样本和错误的标签,该标签在人工审核过程中已被过滤。
应用价值:
目前,在全球范围内的AI零售渠道核查领域,不规范的拍照方式所造成的AI分析结果不精准这一难题尚未得到有效的解决。作为行业新技术,此技术为智慧零售未来的发展提供了新的价值与的研究思路,具有十分重要的意义。
为了进一步促进单目姿态估计在零售领域的学术研究,作者准备将文章中使用的RSPD数据集进行开源。
链接如下:https://github.com/AIKnowU/RSPD
END
备注:物体姿态估计
物体位姿估计交流群
关注最新最前沿的物体位姿估计技术,
若已为CV君其他账号好友请直接私信。
我爱计算机视觉
微信号:aicvml
QQ群:805388940
微博知乎:@我爱计算机视觉
网站:www.52cv.net
在看,让更多人看到