深度图像&骨骼数据进行动作识别数据集

UT-Kinect数据集: 通过固定的使用一个固定的Kinect和Kinect for Windows SDK Beta版本的深度相机以15 fps的帧速率收集数据，包含RGB，Depth和3Dskeleton数据。UT-Kinect将样本分为10种日常生活行为，包括 走路，坐下，站起来，拿起，携带，扔，推，拉，挥手，拍手（walk, sit down, stand up, pick up, carry, throw, push, pull, wave hands, clap hands）等。这些行动由10个不同的人执行，同一行动每个人进行两次。总而言之，该数据集中总共包含199个动作序列。请注意，其中一个原始动作是无效的。UTKinect数据集中的帧大小不同，从5到120帧不等。由于其广泛的类内差异和身体部位的遮挡，UTKinect数据集具有挑战性。例如，一些“拾取东西”动作由左手或右手执行，而其他动作则通过双手完成。一般来说，在动作识别中有两种验证方法，即留一交叉验证(leave-one-out cross validation) 和双交叉验证(2-fold cross validation)。

leave-one-out cross validation 方法相关论文[1,2,3]：

1、Liu, J, Shahroudy, A, Xu, D, Wang, G. Spatio‐temporal LSTM with trust gates for 3D human action recognition. In: Computer Vision ‐ ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11‐14, 2016, Proceedings, Part III. Cham, Switzerland: Springer International Publishing; 2016.

2、Ohn‐Bar, E, Trivedi, M. Joint angles similarities and HOG2 for action recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops;2013; Portland, OR.

3、Hu, J‐F, Zheng, W‐S, Lai, J, Zhang, J. Jointly learning heterogeneous features for RGB‐D activity recognition. IEEE Trans Pattern Anal Mach Intell. 2017; 39( 11): 2186‐ 2200.

Florence 3D 数据集: 通过固定的Kinect收集数据，收集九个常见的室内动作类别，如“观看”，“饮用水”，“呼叫”等。在这些行动中，10个人完成9个动作，每个动作重复执行2或3次，总计215次动作。与UT-Kinect数据集相比，佛罗伦萨3D数据集不仅存在较大的类内差异，而且在不同类之间的较少的相互间变化中也很困难。例如，从骨骼动作序列的角度来看，“观看”，“饮用水”和“呼叫”是类似的。

NTU RGB + D数据集: 与前两个数据集相比，它的大小非常大，并且收集了四类数据，包括RGB，Depth，3D skeleton 和红外数据(infrared data)。每个动作序列由三个静止的Kinect摄像机捕获，两侧的摄像机与中间的摄像机成45度角。请注意，NTU RGB + D数据集中捕获的骨架点的大小为25，这大于前两个数据集中的15个骨架点。超过40名年龄在10至35岁之间的人完成了60种室内活动，总计56 880个动作样本。与UT-Kinect和Florence 3D不同，NTU RGB + D还设计了由两个人执行的一类联合动作。为了处理这种情况，我们直接将两个人的骨架数据拼接为一个实验的骨架序列。4 给出了“交叉对象”("cross subject")的情况，即一半用于训练的对象和另一半用于测试，以及“交叉视图”("cross view")，即分别用于训练的两个视角和用于测试的另一个视角。

4、Liu J, Shahroudy A, Xu D, Wang G. Spatio‐temporal LSTM with trust gates for 3D human action recognition. In: Computer Vision ‐ ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11‐14, 2016, Proceedings, Part III. Cham, Switzerland: Springer International Publishing; 2016.

数据集名称	样例个数	类别数	人	视角	描述
UT-Kinect	199	10	10	1	RGB +Depth+ 3D Skeletion
Florence 3D	215	9	10	1	RGB + 3D Skeleton
NTU RGB + D.	56 880	60	40	80	RGB +Depth+ 3D Skeleton+Infrared Information

深度图像&骨骼数据进行动作识别数据集

相关推荐