图像识别中——目标分割、目标识别、目标检测和目标跟踪的区别

计算机视觉旨在识别和理解图像/视频中的内容,包含四大基本任务:分类(图a)、定位、检测(图b)、语义分割(图c)、和实例分割(图d)。

图像识别中——目标分割、目标识别、目标检测和目标跟踪的区别

这四个任务需要对图像的理解逐步深入。给定一张输入图像,

图像分类任务旨在判断该图像所属类别。

目标定位是在图像分类的基础上,进一步判断图像中的目标具体在图像的什么位置,通常是以包围盒的(bounding box)形式。在目标定位中,通常只有一个或固定数目的目标。

目标检测更一般化,其图像中出现的目标种类和数目都不定。

语义分割是目标检测更进阶的任务,目标检测只需要框出每个目标的包围盒,语义分割需要进一步判断图像中哪些像素属于哪个目标。但是,语义分割不区分属于相同类别的不同实例。例如,当图像中有多只猫时,语义分割会将两只猫整体的所有像素预测为“猫”这个类别。与此不同的是,

实例分割则与语义分割不同,需要区分出哪些像素属于第一只猫、哪些像素属于第二只猫。

目标跟踪通常是用于视频数据,和目标检测有密切的联系,同时要利用帧之间的时序关系。