An Attention Enhanced Graph Convolutional LSTM Network for Skeleton-Based Action Recognition
先把论文的框架放到这里,我再聊一下我觉得比较有意思的地方(如果有不对的地方请多多指教)1.LSTM里用了图卷积(毕竟是骨架结构)
公式如下
2.LSTM里集成了注意力,而且这个最后输出是最后一行的Ht,fatt是注意力模型
注意力模型
3.骨架通过FC用n*256维的空间表示
4.FA负责找前后两帧的差异
5.LSTM层连接了FC与FA的内容(通过contact)
6.TAP:池化层,只不过是时间层面上的,减少计算量,使变化更明显
7.他的损失函数第三项旨在关注不同的关节(这个有一点不懂)第四项旨在限制有趣的关节点数量
8.他还做了另外一个,基于人体部分(part)的,发现如图两个一起效果最好
自己的感受
1.第一个,n*256维是不是太冗余了,通常的xyz轴也感觉太单调了,信息不够突出,我们需要的是一个间接并能体现出相对位置的坐标体系(包括且不局限于距离与角度)极坐标呢
2.我更倾向于对帧之间的变化下手,但怎么下手现在没思路
3.应该有一个关于帧之间变化的矩阵和同一个帧内不同关节的矩阵