《MARS: Motion-Augmented RGB Stream for Action Recognition》阅读笔记

文章链接

为了解决计算光流的带来的庞大的时间开销问题,这篇论文的主旨是介绍了两种学习方法来训练一个标准的3D CNN,在RGB帧上操作,模拟运动流,从而避免在测试时进行光流计算。
可以看到下图作者给出图标,无论是MARS+RBG还是MERS+RBG,准确率和RGB+TVL1Flow差不多,但时耗小很多。
《MARS: Motion-Augmented RGB Stream for Action Recognition》阅读笔记
下面来介绍下MERS和MARS

MERS

《MARS: Motion-Augmented RGB Stream for Action Recognition》阅读笔记
MERS是我们最后需要得到的model。所以在此之前我们需要准备一个teacher和一个student(也就是MERS),想让MERS有光流stream的能力,但只想用RGB做输入,那么只好准备好一个训练好的光流stream作为teacher教会MERS了。
文中MERS是一个由3D卷积和fc构成的network。第一步,除了最后一层fc以外,前面的所有层都参与学习光流stream,损失函数为:
《MARS: Motion-Augmented RGB Stream for Action Recognition》阅读笔记
f表示各自输出的特征。
训练好后,执行第二步,单独对最后一层fc进行训练,用交叉熵损失函数训练其分类能力。

MARS

《MARS: Motion-Augmented RGB Stream for Action Recognition》阅读笔记

MARS和MERS略有不同,它不需要分两步进行训练。它的损失函数由Flow stream的输出特征和标准的分类标签y共同组成。

实验

MARS和MERS进行了比较,MARS要比MERS突出很多(从前面的表也能看出)。MERS的实验准确度和仅flow差不多。这可以说明上述的那种学习方法是有效果的。再看MARS,它的准确度比RGB+Flow差不多。

《MARS: Motion-Augmented RGB Stream for Action Recognition》阅读笔记
与各种先进的模型比较:
《MARS: Motion-Augmented RGB Stream for Action Recognition》阅读笔记