Multimodal Gesture Recognition Using 3-D Convolution and Convolutional LSTM
前言
因为最近再看C3D+LSTM手势识别方面的文章,故记录一下,一方面来加深理解记忆,另一方面以备后面回顾复习
团队介绍
作者来自西安电子科技大学软件学院
Motivation
1:利用三维卷积网络学习较短的时空特征,然后利用卷积LSTM构建长时的时空特征。这个套路很熟悉,在上一篇笔记《Temporal Activity Detection in Untrimmed Videos with Recurrent Neural Networks
》中是利用C3D+LSTM框架,区别在于这篇文章是自己简单设计了三维卷积网络和卷积LSTM(上一篇是LSTM)。2:在多模态数据(RGB 和depth)上相互pre-train和finetune能提升识别率(今年Chalearn isolated gesture recognition challenge中一个参赛队伍就利用了这个trick )。
Framework
各个模块介绍:
3DCNN
作者借鉴C3D网络,简单构建了一个三维卷积网络,加上了BN层。时域感受野大小:
ConvLSTM
将LSTM的全连接替换为卷积,结束。具体参考[1]
SSP
空间金字塔池化,据说能提取不同尺度的特征。这里利用了四层金字塔卷积,逐渐扩大池化核。
Multimodal Fusion
将RGB和depth模型的分类分数相加,除以2.简单粗暴
loss function
常用的多类交叉熵
训练过程
- 数据预处理:将视频采样到特定长度(代码中是32),随机crop为正方形,然后resize到112x112
- 分别训练RGB和depth的网络
借鉴
- RGB和depth数据相互pre-train
引用
- Xingjian S H I, Chen Z, Wang H, et al. Convolutional LSTM network: A machine learning approach for precipitation nowcasting[C]//Advances in neural information processing systems. 2015: 802-810.
- Zhu G, Zhang L, Shen P, et al. Multimodal Gesture Recognition Using 3D Convolution and Convolutional LSTM[J]. IEEE Access, 2017.