深度图像&骨骼数据进行动作识别数据集
UT-Kinect数据集: 通过固定的使用一个固定的Kinect和Kinect for Windows SDK Beta版本的深度相机以15 fps的帧速率收集数据,包含RGB,Depth和3Dskeleton数据。UT-Kinect将样本分为10种日常生活行为,包括 走路,坐下,站起来,拿起,携带,扔,推,拉,挥手,拍手 (walk, sit down, stand up, pick up, carry, throw, push, pull, wave hands, clap hands)等。这些行动由10个不同的人执行,同一行动每个人进行两次。总而言之,该数据集中总共包含199个动作序列。请注意,其中一个原始动作是无效的。UTKinect数据集中的帧大小不同,从5到120帧不等。由于其广泛的类内差异和身体部位的遮挡,UTKinect数据集具有挑战性。例如,一些“拾取东西”动作由左手或右手执行,而其他动作则通过双手完成。一般来说,在动作识别中有两种验证方法,即留一交叉验证(leave-one-out cross validation) 和双交叉验证(2-fold cross validation)。
leave-one-out cross validation 方法相关论文[1,2,3]:
1、Liu, J, Shahroudy, A, Xu, D, Wang, G. Spatio‐temporal LSTM with trust gates for 3D human action recognition. In: Computer Vision ‐ ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11‐14, 2016, Proceedings, Part III. Cham, Switzerland: Springer International Publishing; 2016.
2、Ohn‐Bar, E, Trivedi, M. Joint angles similarities and HOG2 for action recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops;2013; Portland, OR.
3、Hu, J‐F, Zheng, W‐S, Lai, J, Zhang, J. Jointly learning heterogeneous features for RGB‐D activity recognition. IEEE Trans Pattern Anal Mach Intell. 2017; 39( 11): 2186‐ 2200.
Florence 3D 数据集: 通过固定的Kinect收集数据,收集九个常见的室内动作类别,如“观看”,“饮用水”,“呼叫”等。在这些行动中,10个人完成9个动作,每个动作重复执行2或3次,总计215次动作。与UT-Kinect数据集相比,佛罗伦萨3D数据集不仅存在较大的类内差异,而且在不同类之间的较少的相互间变化中也很困难。例如,从骨骼动作序列的角度来看,“观看”,“饮用水”和“呼叫”是类似的。
NTU RGB + D数据集: 与前两个数据集相比,它的大小非常大,并且收集了四类数据,包括RGB,Depth,3D skeleton 和红外数据(infrared data)。每个动作序列由三个静止的Kinect摄像机捕获,两侧的摄像机与中间的摄像机成45度角。请注意,NTU RGB + D数据集中捕获的骨架点的大小为25,这大于前两个数据集中的15个骨架点。超过40名年龄在10至35岁之间的人完成了60种室内活动,总计56 880个动作样本。与UT-Kinect和Florence 3D不同,NTU RGB + D还设计了由两个人执行的一类联合动作。为了处理这种情况,我们直接将两个人的骨架数据拼接为一个实验的骨架序列。4 给出了“交叉对象”("cross subject")的情况,即一半用于训练的对象和另一半用于测试,以及“交叉视图”("cross view"),即分别用于训练的两个视角和用于测试的另一个视角。
4、Liu J, Shahroudy A, Xu D, Wang G. Spatio‐temporal LSTM with trust gates for 3D human action recognition. In: Computer Vision ‐ ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11‐14, 2016, Proceedings, Part III. Cham, Switzerland: Springer International Publishing; 2016.
数据集名称 | 样例个数 | 类别数 | 人 | 视角 | 描述 |
---|---|---|---|---|---|
UT-Kinect | 199 | 10 | 10 | 1 | RGB +Depth+ 3D Skeletion |
Florence 3D | 215 | 9 | 10 | 1 | RGB + 3D Skeleton |
NTU RGB + D. | 56 880 | 60 | 40 | 80 | RGB +Depth+ 3D Skeleton+Infrared Information |