论文翻译《Computer Vision for Autonomous Vehicles Problems, Datasets and State-of-the-Art》(第五章)
5. 目标检测
可靠的物体检测是实现自动驾驶的关键要求。由于汽车与许多交通方式共同使用道路,特别是在城市地区,因此需要了解其他交通参与者或障碍物,以避免可能危及生命的事故。在城市地区的检测十分困难,因为由其他物体或感兴趣的物体本身引起的物体外观和遮挡物的种类繁多。此外,物体彼此间或者与背景相似及投影或反射等物理效应会使区分变得困难。
传感器:物体检测任务可以通过各种不同的传感器来解决。摄像机是用于检测物体的最便宜和最常用的传感器类型。可见光谱(VS)通常用于白天检测,而红外光谱可用于夜间检测。热红外(TIR)摄像机捕获相对温度,可以区分行人等温暖物体与植被或道路等寒冷物体。发射信号并观察其反射的有源传感器,如激光扫描仪,可以提供范围信息,有助于检测目标并对其三维定位。根据天气条件或材料特性,仅依靠单一类型的传感器可能会有问题。VS相机和激光扫描仪受到反射或透明表面的影响,而热物体(如发动机)或温暖的温度会影响TIR相机。来自不同传感器的信息通过传感器融合的组合允许这种补充信息的稳健集成。(Enzweiler&Gavrila(2011);Chen等人(2016b);González等人(2016))
标准流程:传统的检测流程包括以下步骤:预处理,感兴趣区域提取(ROI),对象分类和验证/细化。在预处理步骤中,通常执行诸如曝光和增益调整以及相机校准和图像校正之类的任务。一些方法利用联合检测和跟踪系统来获得时间信息。我们在第9节中详细介绍了跟踪问题。
可以使用滑动窗口方法来提取感兴趣的区域,该滑动窗口方法使检测器在不同比例的图像上移动。由于全面的搜索成本很高,因此已经提出了几种用于减少搜索空间的算法。通常,通过假设候选边界框的特定比率,大小和位置来减少评估的数量。除此之外,可以利用图像特征,立体图像或光流来集中搜索相关区域。Broggi等人(2000)使用人形的形态特征(大小,比例和形状)和垂直对称来过滤行人候选人。此外,他们在算法的ROI提取和细化步骤中利用从立体视觉获得的距离信息。选择性搜索(Uijlingsetal)(2013))是产生感兴趣区域的另一种方法。他们利用分段来有效地提取近似位置,而不是在整个图像域上执行穷举搜索。
在他们对单目图像行人检测系统的调查中,Dollar等人(2011)提出了一个广泛的评估,重点是滑动窗口方法的评估。他们声称这些方法对于低到中分辨率检测最有希望,但发现低分辨率输入和遮挡的检测仍然是所考虑的方法的问题。
分类:由于需要分类的图像区域太多,使用滑动窗口方法对图像中的所有候选者进行分类可能变得成本很高。因此,需要快速决定丢弃图像的背景区域中的候选区域。Viola等人(2005)结合简单有效的分类器,使用AdaBoost学习,在一个级联中,允许快速丢弃错误的候选区域,同时花费更多的时间在有可能的区域。
随着Dalal&Triggs(2005)的工作,线性支持向量机(SVM)从线性决策边界最大化了所有样本的边界,结合方向直方图(HOG)特征已成为分类的流行工具。但是,以前的所有方法都依赖于难以设计的手工制作的功能。随着深度学习的复兴,卷积神经网络使这项任务自动化,同时显着提高了性能。例如,Sermanet等(2013)将CNN引入行人检测问题,使用无监督卷积稀疏自动编码器预训练特征和端到端监督训练以训练分类器,同时微调特征。今天,我们将在5.1节讨论,从大型数据集中以端到端的方式获取所有的检测方法。
基于部分的方法:学习清晰物体的外观很困难,因为需要考虑所有可能的清晰度。基于部分的方法的想法是将像人类这样的非刚性运动物体的复杂外观分成简单的部分,并用这些部分表示任何清晰度。这提供了更大的灵活性,并减少了学习对象外观所需的培训示例的数量。Felzenszwalb等人的可变形零件模型(DPM)(2008)试图将对象的复杂外观分解为更容易的部分,用于训练具有潜在结构变量的SVM,这些变量代表模型配置并且需要在训练时推断。他们使用覆盖整个对象的粗糙全局模板和更高分辨率的局部模板来模拟每个部分的外观,如图6所示。所有模板都使用HOG。此外,它们推广SVM以处理潜在变量,例如部分姿势位置。
图6使用Felzenszwalb等人提出的可变形局部模型获得的示例检测。(2008年)DPM包括粗略和多个高分辨率模型以及用于约束每个部分的位置的空间星座模型。改编自Felzenszwalb等。(2008年)。
这种表示的替代方案是Leibe等人提出的隐式形状模型。(2008a)学习了高度灵活的物体形状表示。它们提取感兴趣点周围的局部特征并执行聚类以构建本地外观的码本,该码本是所考虑的特定对象类的特征。基于该码本,他们了解可能出现的码本条目在何处。
虽然到目前为止提供的基于局部的模型非常成功,但它们不能表示障碍物推理所必需的背景信息。通常,学习单独的背景模型来处理遮挡,参见Hoiem等人(2008);涂白(2010);德赛等人(2011);杨等人(2012年)。And-Or模型嵌入了一个语法来表示可重构层次结构中的大型结构和外观变化。吴等人(2016a)建议学习一种And-Or模型,该模型考虑了多车,单车和部分级别的结构和外观变化,共同表示背景和遮挡。
5.1 2D目标检测
KITTIGeiger等(2012b)是自动驾驶汽车环境中最受欢迎的物体检测系统基准测试之一。行人检测任务的类似流行度有加州理工学院-美国数据集(Dollár等人(2012))。在这项工作中,我们希望将注意力集中在KITTI基准测试上,因为它允许我们在同一数据上比较物体和行人检测系统。我们将感兴趣的读者引用到调查论文(Benenson等人(2014);Zhang等人(2016b)),以深入比较Caltech-USA的行人检测系统。在表1中,我们展示了KITTI基准测试对象,行人和骑车人从图像中检测的最新技术。请注意,对于本文中的所有结果表,我们仅列出具有与之关联的文章的公共方法,因为匿名条目的详细信息尚未讨论。使用PASCALVOC交叉联合(IOU)评估性能的三个难度级别(Evering-ham等人(2010))。简单的示例具有40px的最小边界框高度并且是完全可见的,而中等示例具有25px的最小高度,包括部分遮挡,并且困难示例具有相同的最小高度但包括最大遮挡水平。在表2中,使用Geiger等人提出的平均取向相似性(AOS)评估物体取向的估计。(2012B)。
表1:KITTI对象检测排行榜。在这些表中仅示出了基于图像的方法,即,没有使用激光扫描数据。数字表示基于对象大小和遮挡/截断水平的不同难度水平的平均精度。数字越大表示性能越好。
卷积神经网络可以显着改善物体探测器的性能。最初,CNN被整合到滑动窗口方法中(Sermanet等人(2013))。然而,由于大的感受野和步幅,物体的精确定位具有挑战性。Girshick等。另一方面,(2014)提出RCNN用“使用区域识别”范例来解决CNN定位问题。他们使用选择性搜索生成许多区域候选区域(Uijlings等人(2013)),使用CNN为每个提案提取固定长度的特征向量,并使用线性SVM对每个区域进行分类。基于区域的CNN在计算上是昂贵的,但已经提出了若干改进以减少计算负担(He等人(2014);Girshick(2015))。等人。(2014)使用空间金字塔池,其允许仅使用CNN的一次运行来计算整个图像的卷积特征图,而不是需要应用于许多图像区域的R-CNN。Girshick(2015)通过单阶段训练算法进一步改进,该算法共同学习对对象候选区域进行分类并改进其空间位置。尽管这些基于区域的网络已经证明在PASCALVOC基准测试中非常成功,但它们无法在KITTI上实现类似的性能。其主要原因是KITTI数据集包含许多不同尺度的对象和通常严重遮挡或截断的小对象。使用基于区域的神经网络很难检测到这些对象。因此,已经提出了几种获得更好的对象候选区域的方法(Ren等人(2015);Chen等人(2016b,a);Yang等人(2016);Cai等人(2016))。
任等人(2015)引入了区域候选网络(RPN),其中区域候选网络与检测网络共享全图像卷积特征,因此不会增加计算成本。RPN经过端到端的训练,以生成高质量的区域提案,这些提案使用快速R-CNN探测器进行分类(Girshick(2015))。陈等人(2015c)使用从立体相机对估计的3D信息来提取更好的边界框候选区域。他们将3D候选框放置在地平面上,并使用3D点云特征对其进行评分。最后,CNN利用上下文信息并使用多任务丢失共同回归对象的坐标和方向。受这种方法的启发,陈等人。(2016a)学习为单眼图像生成特定于类的3D对象候选区域,利用上下文模型以及语义。他们通过在地平面上详尽地放置3D边界框并使用标准CNN管道对其进行评分来生成对象候选区域(Chenetal。(2015c))。两种方法陈等人(2015c)(2016a)在所有检测任务中获得与最佳性能方法相当的结果,同时在KITTI汽车的简单示例上优于所有其他方法(表1a)。此外,它们是用于方向估计的最佳表现方法之一(表2)。
Yang等人提出了另一种方法。(2016)。在小物体的情况下,卷积神经元的强烈**更可能发生在较早的层中。因此,杨等人(2016)使用依赖于比例的池化,其允许使用来自相应比例的卷积特征来表示候选边界框。此外,他们提出逐层级联拒绝分类器,将早期层次的卷积特征视为弱分类器,以有效地消除负面对象候选区域。建议的与尺度相关的汇集方法是所有任务中表现最佳的方法之一(表1)。
表2:KITTI检测和方向估计排行榜。在这些表中仅示出了基于图像的方法,即,没有使用激光扫描数据。数字表示Geiger等人描述的平均取向相似性。(2012B)。数字越大表示检测和方向估计越好。
蔡等人(2016)提出了一种由候选区域子网和检测子网组成的多尺度CNN。如图7所示,候选区域网络在多个输出层执行检测,并且这些互补的比例特定检测器被组合以产生强大的多尺度物体检测器。他们的多尺度CNN优于KITTI行人和自行车手的所有其他方法(表1b,1c),而在KITTI车上排名第二(表1a)。翔等人。(2016)提出了使用从3DVP获得的子类信息的区域候选区域网络(Xiangetal。(2015b)),以指导候选区域生成过程,以及用于联合检测和子类别分类的检测网络。对象子类别是为具有相似属性或属性(如外观,姿势或形状)的对象定义的。子类别信息允许它们优于KITTI汽车上检测任务的所有其他方法(表1a),并在方向估计中实现最佳性能(表2)。
他们的多尺度CNN优于KITTI行人和自行车手的所有其他方法(表1b,1c),而在KITTI车上排名第二(表1a)翔等人(2016)提出了使用从3DVP获得的子类信息的区域候选区域网络(Xiangetal。(2015b)),以指导候选区域生成过程,以及用于联合检测和子类别分类的检测网络。对象子类别是为具有相似属性或属性(如外观,姿势或形状)的对象定义的。子类别信息允许它们优于KITTI汽车上检测任务的所有其他方法(表1a),并在方向估计中实现最佳性能(表2)。
5.2 基于2D图像进行3D目标检测
对象类的几何3D表示可以比仅仅2D或3D边界框恢复更多细节,但是今天的大多数对象检测器都专注于强大的2D匹配。Zia等人(2013)利用高质量3DCAD模型可用于许多重要类别的检测。从这些模型中,他们使用主成分分析和线框顶点的列车检测器获得粗略的3D线框模型。在测试时,他们通过密集应用探测器产生顶点的证据。Zia等人(2015)通过在他们的公式中直接使用详细的3DCAD模型,将它们与可能的遮挡模式的明确表示相结合来扩展这项工作。此外,联合估计地平面以稳定姿势估计过程。该扩展优于Zia等人的伪3D模型。(2013)并展示了真实公制3D空间中推理的好处。
虽然这些3D表示提供了对物体更忠实的描述,但它们仍然无法与使用2D边界框的最先进的探测器竞争。为了克服这个问题,Pepik等人(2015)提出了强大的可变形局部模型的3D扩展(Felzenszwalb等人(2008)),其将3D几何表示与对现实世界图像的稳健匹配相结合。他们进一步将感兴趣的对象类的3DCAD信息添加为几何提示以丰富外观模型。
5.3 基于三维点云的3D目标检测
KITTI数据集Geiger等(2012b)提供同步相机和激光雷达框架,并允许在相同数据上比较基于图像和基于激光雷达的方法。与相机相比,激光雷达测距传感器直接提供精确的3D信息,简化了候选对象的提取,并且在提供3D形状信息时可以有助于分类任务。然而,来自激光扫描仪的3D数据通常是稀疏的并且其空间分辨率是有限的。因此,仅依赖于激光范围数据的现有技术还不能达到基于摄像机的检测系统的性能。在表3中,我们展示了基于激光雷达的KITTI基准,用于物体,行人和骑车人检测的最新技术。通过将3D边界框投影到图像平面中,使用PASCAL交叉结合来评估性能类似于基于图像的方法。
图8:Chen等人提出的网络。(2016b)结合了鸟瞰图中的区域特征,激光雷达点云的前视图以及RGB图像作为深度融合网络的输入。改编自陈等人。(2016B)。
Wang&Posner(2015)提出了一种将常用2D滑动窗口检测方法应用于3D数据的有效方案。 更具体地说,他们利用投票方案利用问题的稀疏性来搜索所有可能的对象位置和方向。
李等人(2016b)通过利用完全卷积神经网络从范围数据中检测车辆来改进这些结果。它们表示2D点图中的数据,并使用单个2D CNN同时预测对象置信度和边界框。用于表示数据的编码允许它们预测车辆的完整3D边界框。 Engelcke等(2016)利用特征中心投票方案来实现一个新的卷积层,利用点云的稀疏性。此外,他们建议使用L 1惩罚进行正则化。
仅依靠激光范围数据使得检测任务由于激光扫描的有限密度而具有挑战性。 因此,与基于KITTI数据集的基于图像的对应物相比,现有的基于激光雷达的方法执行得更弱。 陈等人(2016c)将激光雷达测距数据与RGB图像结合起来进行物体检测。 在他们的方法中,使用紧凑的多视图表示来编码稀疏点云,并且候选区域生成网络利用点云的鸟瞰图表示来生成3D候选。 最后,他们将来自多个视图的区域特征与深度融合方案相结合,如图8所示。这种方法在很大程度上优于其他基于激光雷达的方法,并在KITTI汽车基准测试中实现了最先进的性能( 表1a,3a)。
表3:KITTI激光雷达检测排行榜。 介绍了专注于激光雷达扫描的方法以及将激光雷达与RGB图像相结合的方法。 数字表示不同难度级别的平均精度。 数字越大表示性能越好。
5.4 行人检测
虽然到目前为止我们已经讨论了一般物体检测算法,但我们现在关注人或行人检测的具体方法,这些方法与任何与真实环境相互作用的自治系统高度相关。 由于人类行为的可预测性低于汽车的行为,因此需要可靠的行人检测才能在行人附近安全驾驶。 由于不同的衣服和铰接姿势导致各种各样的外观,人们的检测特别困难。 此外,在部分遮挡的情况下,行人的清晰度和相互作用可以强烈地影响行人的外观。
行人保护系统:这个问题已经深入研究了先进的驾驶员辅助系统,以提高道路安全性。 行人保护系统(PPS)检测移动车辆周围是否存在静止和移动的人员,以警告驾驶员免受危险情况的影响。
尽管驾驶员仍然可以处理错过的PPS检测,但是自动驾驶汽车的行人检测需要完美无缺。 行人检测系统需要在所有天气条件下都能够稳健,并且能够有效地进行实时检测。 Geronimo等(2010)调查高级驾驶员辅助系统的行人检测。
调查:Enzweiler和Gavrila(2009)对单目行人探测的不同架构给出了非常广泛的概述。 他们观察到Dalal&Triggs(2005)提出的HOG / SVM组合在较高分辨率下具有较高的处理时间,而AdaBoost 的ascade方法在较低分辨率下具有优势,可实现接近实时的性能。 在他们的调查中,Benenson等人(2014)没有发现明确的证据表明某种类型的分类器(例如SVM或决策林)比其他分类器更适合。 特别是,Wojek&Schiele(2008b)表明,如果给出足够的特征,AdaBoost和线性SVM的表现大致相同。 此外,Benenson等人(2014)观察到,与Dalal&Triggs(2005)的简单方法相比,基于部分的模型(Felzenszwalb等人(2008))仅略微改善了结果。他们得出结论,特征的数量和多样性显然是分类器性能的重要因素,因为分类问题通过更高维度表示变得更容易。 因此,今天所有最先进的行人检测系统都使用卷积神经网络并以端到端的方式学习特征表示(Cai et al。(2016); Xiang et al。(2016); Zhu et al (2016); Yang等人(2016); Chen等人(2015c); Ren等人(2015))。
时间信息:同样,Shashua等(2004)指出了人物检测任务的良好特征的重要性。他们指出,随着时间的推移(动态步态,运动视差)和情境特定特征(例如某些姿势的腿部位置)测量的其他线索的整合是可靠检测的关键。Wojek等人(2009)注意到大多数行人检测系统仅依赖于单个图像作为输入,并且不利用视频序列中的对象的可用时间信息。它们通过结合运动提示和组合不同的互补特征类型,显示出检测性能的显着改善。
目标类别的稀缺性:训练数据的扩大允许训练用于检测问题的复杂模型。 然而,由于手动标记,属于目标类的示例的生成通常是耗时的,而可以容易地获得许多负面示例。 Enzweiler和Gavrila(2008)解决了目标类样本稀缺造成的瓶颈问题。
他们使用学习的生成模型创建合成的虚拟样本,以增强判别模型。
生成模型捕获有关行人阶级的先验知识,并允许显着改进分类性能
实时行人检测:在与行人发生潜在碰撞的情况下,快速检测允许自主系统的提前干预。 Benenson等(2012)通过更好的处理尺度和利用立体匹配提取的深度,提供快速和高质量的行人检测。 他们没有调整图像的大小,而是缩放HOG功能,类似于Viola&Jones(2004)。 Stixel World表示(Badino等人(2009))提供深度信息,允许在并行框架中显著减少搜索空间并检测的行人。
5.5 人体姿势估计
人的姿势和注视向自主车辆提供关于人的行为和意图的重要信息。然而,姿势估计问题具有挑战性,因为姿势空间非常大并且通常人们只能在低分辨率下观察,因为它们的尺寸和到车辆的距离。已经提出了几种方法来联合估计人的姿势和身体部位。
传统上,通过首先检测身体部位然后估计姿势来使用两阶段方法(Pishchulin等人(2012); Gkioxari等人(2014); Sun&Savarese(2011))。当人们彼此接近时,这是有问题的,因为身体部位可能被错误地分配给不同的实例。
Pishchulin等(2016)提出DeepCut方法,这是一个联合估计图像中所有人的姿势的模型。该方法基于对从基于CNN的部分检测器获得的一组体部假设进行分区和标记。 该模型共同推断出人数,姿势,空间接近度和部分水平遮挡。 Bogo等(2016)使用DeepCut从单个无约束图像估计人体的3D姿势和3D形状。 SMPL,Loper等人提出的3D体形模型(2015),适用于DeepCut对2D身体关节位置的预测。 SMPL捕获人群中人体形状的相关性,即使在存在弱观察的情况下也能够稳健地拟合人体姿势。
5.6 讨论
在具有很少遮挡的高分辨率的情况下,物体检测已经很好地工作。对于汽车检测任务的简单和适度情况(表1a),许多方法都表现出令人印象深刻的性能。 行人和骑车人检测任务(表1b,1c)更具挑战性,因此可以观察到较弱的整体性能。 造成这种情况的一个原因是训练样本的数量有限,并且可能会使骑车人和行人混淆,这些人只能通过他们的背景和语义来区分。
剩余主要问题是检测小对象和高度遮挡的对象。 在排行榜中,当比较简单、中等和困难的例子时,这表现出性能的显著下降。定性地,这可以在图9,10,11中观察到,其中我们示出了在KITTI数据集上表现最佳的方法的典型估计误差。
造成错误的主要原因是行人群,骑车人群和汽车线导致许多遮挡并导致所有方法都缺失检测。此外,在某些情况下需要检测大量的远处物体,这对于现代方法来说仍然是一项具有挑战性的任务,因为这些目标所提供的信息量非常低。
图9:KITTI车辆检测分析。每幅图分别显示具有大量真阳性(TP)检测,假阳性(FP)检测和假阴性(FN)检测的图像。如果所有检测器都同意TP,FP或FN,则对象标记为红色。 如果只有一些探测器同意,则对象标记为黄色。 通过考虑提交时在KITTI评估服务器上发布的15种主要方法,建立了排名。
图10:KITTI行人检测分析。 每幅图分别显示具有大量真阳性(TP)检测,假阳性(FP)检测和假阴性(FN)检测的图像。 如果所有检测器都同意TP,FP或FN,则对象标记为红色。 如果只有一些探测器同意,则对象标记为黄色。 通过考虑提交时在KITTI评估服务器上发布的15种主要方法,建立了排名
图11:KITTI骑车人检测分析。 每幅图分别显示具有大量真阳性(TP)检测,假阳性(FP)检测和假阴性(FN)检测的图像。 如果所有检测器都同意TP,FP或FN,则对象标记为红色。 如果只有一些探测器同意,则对象标记为黄色。 通过考虑提交时在KITTI评估服务器上发布的15种主要方法,建立了排名。
图12:Cordts等人从Cityscapes数据集中对场景进行语义分割。(2016年)在苏黎世录制。