抓取检测之GraspCNN: Real-Time Grasp Detection Using a New Oriented Diameter Circle Representation
来源
Y. Xu, L. Wang, A. Yang and L. Chen, “GraspCNN: Real-Time Grasp Detection Using a New Oriented Diameter Circle Representation,” in IEEE Access, vol. 7, pp. 159322-159331, 2019
摘要
使用有向直径圆表示抓取姿势,使用端到端的神经网络,输入为RGB图像。针对有向直径圆提出评估方法,在cornell数据集上达到06.5%的准确率,帧率为50fps。
抓取表示
有向直径圆表示为G={x, y, d, θ} 如下图:
其中(x, y)表示抓取点,d为夹持器张开宽度,θ为圆的直径与水平轴(相机坐标系的y轴)的夹角。相机坐标系如下:
有向直径圆的优点:
(1)机器人抓取以更直观的方式呈现。抓取圆表示在抓取物体之前提供抓取器的开口宽度,确保有足够的空间容纳打开的抓取器,并在抓取区域内执行稳定抓取而不发生碰撞。(论文原句,我觉得不太算创新点)
(2)适用于所有类型的夹持器,无需像矩形表示法中的夹持器尺寸(不知道说的是不是有向矩形中的“长”)这样的参数,并且它可以与机械臂的抓取行为相关联。
抓取评估
不采用打分制,当预测的有向圆与有向圆标签同时满足以下两个条件时,认为预测正确:
a、 有向直径角的θ与真值之差不超过30°
b、 IOU >= 50%
抓取姿态
论文里这一步写的有点问题。可以看我另一篇博客:
https://blog.****.net/qq_40081208/article/details/104701045
数据集
采用cornell数据集,将原本的矩形框标注改为有向圆标注。在转换时,抓取宽度超出160像素的取160像素。通过随机平移和旋转进行数据增强。
网络结构
采用全卷积神经网络,输入为416416的RGB图像,网络分两部分,前一部分进行特征提取,后一部分进行特征融合,各层参数如下图;最后输出6张1313大小的图。
网络原理如下:将416416的输入图像均分成1313个网格,每个网格的大小为32*32,若有向圆的中心落在某一个网格中,抓取点坐标的标签(x,y)为这个点相对于它所在的网格的左上角坐标的偏移量,然后再归一化为[0,1];抓取宽度归一化到[0,1];抓取角θ转换为(cos2θ,sin2θ)(转换的原因可参考我以前的博客https://blog.****.net/qq_40081208/article/details/104479376);置信度为1,没有目标的网格将置信度设为0。所以最后一共预测6个数(p, x, y, d, sin, cos),通过以下公式反推出有向圆
筛选最优抓取
根据置信度筛选最优抓取。网络输出的其中一层是13*13的置信度,计算其中的8邻域峰值得到候选抓取,其中置信度大于0.4的认为是最优抓取。这里不直接取最高值,是因为作者的测试图像中有多个抓取目标。测试结果如下:
在cornell数据集上进行测试,准确率为96.5%,帧率为50fps。并跟其他先进算法进行了比较,优于其他算法。
总结
本文采用的评估方法与其他算法不同,直接比较准确率有点不严谨。这也侧面说明,还没有一个比较完美的抓取表示方法。另外,作者是用的cornell数据集训练的,而cornell中的图像都是单目标的,最终却在多目标图像上获得如此好的检测效果。这种圆形表示法本质上还是一条线段,只不过在评估时用了与圆相关的方法。