解析 | 自动驾驶视觉定位与导航技术的研究与应用
视觉定位与导航技术是智能体具备的基础能力之一,随着无人驾驶的发展,基于低成本摄像头及人工智能算法的视觉定位与导航技术成为了无人驾驶的主流技术路线之一。在传统工作方式中,视觉定位与导航技术通常采用SLAM(Simultaneous Localization And Mapping,同步定位与建图)的方式构建一个几何地图,然后在地图中进行路径规划和导航。在每一个时刻,无人车可以通过使用当前图像和地图比对的方式,或者采用视觉里程计的方式,估计当前相机的位姿进行无人车定位。
但在开放、复杂的无人驾驶场景中,视觉定位与导航技术在传统工作方式下还存在一些明显的挑战:
一、摄像头视角有限
鱼眼相机:应用鱼眼相机可以为视觉定位创造一个超大范围的场景视角,但同时鱼眼相机也存在较大的畸变这一挑战,大畸变使得普通的相机模型无法适配,并且普通的描述子也不能适用。另外目前常见的开源SLAM系统,如ORB-SLAM等并不能很好地支持鱼眼SLAM模型。针对这个问题,我们提出了一种基于立方体展开相机模型的SLAM系统(CubemapSLAM,图1),该模型既可以有效去除鱼眼相机图像中存在的较大畸变,又能够保留原始图像所有的场景视角。目前,在公开数据集和驭势科技自主采集的数据集中,我们的算法均优于已有的鱼眼SLAM方法。
图1
我们的方法已于去年发表在ACCV2018,同时对我们的CubemapSLAM算法进行了开源,欢迎大家使用并反馈。
链接:
图2
多相机系统:我们研发了紧耦合多相机的SLAM定位系统(图3)。在多相机系统中,由于每个相机的光心位置不同,因此,我们采用了一种叫做General Camera的模型来表达多相机系统。同时,多相机系统的精度受相机之间的外参影响比较大,因此标定的质量非常关键。除了常规静态标定之外,我们还将多相机的外参纳入到SLAM系统的优化框架中。
图3
二、Long-Term Visual Localization
位置识别(Place Recognition):对于位置识别任务而言,如果我们把每一个位置当做一个类别(Class),那么我们有很容易获取的Label : GPS作为监督信号。GPS的坐标值本身是连续的,两个坐标之间的欧式距离可以反应出两张图之间的远近。因此可以把这个问题当做度量学习(Metric Learning)来训练。通过这样训练出来的Feature,可以做到大幅超过BoW的位置识别效果。我们在这种网络基础之上,提出了Landmark Localization Network (LLN,图4),帮助挑选出图像中最有显著性的部分。从结果中我们看到,仅仅使用GPS这个弱监督信号,我们却学习出了跟Place Recognition这个任务最相关的特征,如图6所示,我们对LLN网络的Feature Map进行了可视化,在第二行中我们看到垃圾桶部分的响应比后面的红墙要高很多,而在第三行中旅馆的招牌也得到较高的响应。我们的结果已发表在ICRA19。
图5
图6
图7
图9
Navigation
2017年,在我们和清华大学合作参与的一个Vizdoom比赛(图12)中,我们率先使用了SLAM和导航结合的技术。这个比赛环境是基于Doom(一款3D系列射击游戏)的第一人称射击游戏,选手的任务是在一个环境中移动和射杀对手,并赚取尽量多的分数。为了能很好地完成这个任务,空间感知能力是一个基础。而一般的深度强化学习方法并不会显式地表达这个空间概念。因此我们把SLAM构建的地图和强化学习网络相结合,通过把周围空间环境的信息加入到网络中提升了强化学习的空间感知能力,并最终在这个比赛中获得了第二名的好成绩。
图12
此外,驭势科技自主研发了驭势智能驾驶仿真系统,其场景画面和真实场景高度相似。因此我们可以在仿真平台中训练行车策略, 并且部署到真实场景中。
图13 基于仿真平台的Vanishing Point训练
我们还在Navigation上面做着更多的探索,More To Be Continued, Please Stay In Tune!
戳下图,赶快加入到比赛!
驭势科技 UISEE ——以AI驾驶重塑人类生活方式,成立于2016年2月,致力于用人工智能和大数据重构人和物的交通,为十亿级人群交付安全、舒适、高性价比的全栈智能驾驶技术方案、产品和服务。
公司目前在北京设有总部和研发中心,在上海设有研发中心,在浙江设有创新试制中心,在南京设有人工智能研究院,在深圳和广西、成都、郑州均设有分支机构,拥有数百人的研发团队和完整的知识产权布局。业务上已形成可规模化部署的L3-L4级智能驾驶系统,与大量头部客户协同创新,并在多种商业场景中率先落地。