深度图像&骨骼数据进行动作识别数据集

UT-Kinect数据集通过固定的使用一个固定的Kinect和Kinect for Windows SDK Beta版本的深度相机以15 fps的帧速率收集数据,包含RGB,Depth和3Dskeleton数据。UT-Kinect将样本分为10种日常生活行为,包括 走路,坐下,站起来,拿起,携带,扔,推,拉,挥手,拍手 (walk, sit down, stand up, pick up, carry, throw, push, pull, wave hands, clap hands)等。这些行动由10个不同的人执行,同一行动每个人进行两次。总而言之,该数据集中总共包含199个动作序列。请注意,其中一个原始动作是无效的。UTKinect数据集中的帧大小不同,从5到120帧不等。由于其广泛的类内差异和身体部位的遮挡,UTKinect数据集具有挑战性。例如,一些“拾取东西”动作由左手或右手执行,而其他动作则通过双手完成。一般来说,在动作识别中有两种验证方法,即留一交叉验证(leave-one-out cross validation) 和双交叉验证(2-fold cross validation)。

深度图像&骨骼数据进行动作识别数据集
UT-Kinect​​​​​​

leave-one-out cross validation 方法相关论文[1,2,3]:

1、Liu, J, Shahroudy, A, Xu, D, Wang, G. Spatio‐temporal LSTM with trust gates for 3D human action recognition. In: Computer Vision ‐ ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11‐14, 2016, Proceedings, Part III. Cham, Switzerland: Springer International Publishing; 2016.

2、Ohn‐Bar, E, Trivedi, M. Joint angles similarities and HOG2 for action recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops;2013; Portland, OR.

3、Hu, J‐F, Zheng, W‐S, Lai, J, Zhang, J. Jointly learning heterogeneous features for RGB‐D activity recognition. IEEE Trans Pattern Anal Mach Intell. 2017; 39( 11): 2186‐ 2200.

 

Florence 3D 数据集: 通过固定的Kinect收集数据,收集九个常见的室内动作类别,如“观看”,“饮用水”,“呼叫”等。在这些行动中,10个人完成9个动作,每个动作重复执行2或3次,总计215次动作。与UT-Kinect数据集相比,佛罗伦萨3D数据集不仅存在较大的类内差异,而且在不同类之间的较少的相互间变化中也很困难。例如,从骨骼动作序列的角度来看,“观看”,“饮用水”和“呼叫”是类似的。

NTU RGB + D数据集: 与前两个数据集相比,它的大小非常大,并且收集了四类数据,包括RGB,Depth,3D skeleton 和红外数据(infrared data)。每个动作序列由三个静止的Kinect摄像机捕获,两侧的摄像机与中间的摄像机成45度角。请注意,NTU RGB + D数据集中捕获的骨架点的大小为25,这大于前两个数据集中的15个骨架点。超过40名年龄在10至35岁之间的人完成了60种室内活动,总计56 880个动作样本。与UT-Kinect和Florence 3D不同,NTU RGB + D还设计了由两个人执行的一类联合动作。为了处理这种情况,我们直接将两个人的骨架数据拼接为一个实验的骨架序列。4 给出了“交叉对象”("cross subject")的情况,即一半用于训练的对象和另一半用于测试,以及“交叉视图”("cross view"),即分别用于训练的两个视角和用于测试的另一个视角。

4、Liu J, Shahroudy A, Xu D, Wang G. Spatio‐temporal LSTM with trust gates for 3D human action recognition. In: Computer Vision ‐ ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11‐14, 2016, Proceedings, Part III. Cham, Switzerland: Springer International Publishing; 2016.

 

数据集名称 样例个数 类别数 视角 描述
UT-Kinect 199 10 10 1 RGB +Depth+ 3D Skeletion
Florence 3D 215 9 10 1 RGB + 3D Skeleton
NTU RGB + D. 56 880 60 40 80 RGB +Depth+ 3D Skeleton+Infrared Information