图像识别中——目标分割、目标识别、目标检测和目标跟踪的区别

计算机视觉旨在识别和理解图像/视频中的内容，包含四大基本任务：分类(图a)、定位、检测(图b)、语义分割(图c)、和实例分割(图d)。

这四个任务需要对图像的理解逐步深入。给定一张输入图像，

图像分类任务旨在判断该图像所属类别。

目标定位是在图像分类的基础上，进一步判断图像中的目标具体在图像的什么位置，通常是以包围盒的(bounding box)形式。在目标定位中，通常只有一个或固定数目的目标。

目标检测更一般化，其图像中出现的目标种类和数目都不定。

语义分割是目标检测更进阶的任务，目标检测只需要框出每个目标的包围盒，语义分割需要进一步判断图像中哪些像素属于哪个目标。但是，语义分割不区分属于相同类别的不同实例。例如，当图像中有多只猫时，语义分割会将两只猫整体的所有像素预测为“猫”这个类别。与此不同的是，

实例分割则与语义分割不同，需要区分出哪些像素属于第一只猫、哪些像素属于第二只猫。

目标跟踪通常是用于视频数据，和目标检测有密切的联系，同时要利用帧之间的时序关系。