主要思想

简介

文章使用EPIC-KITCHEN数据集，包括3种模态数据，分别为video，audio，motion。其中motion数据是从video数据种计算得出的optical flow。

audio数据的优点在于能够捕捉丰富的手物交互时产生的声音。尤其当交互过程中会发出特征明显的声音时（如油煎食物），audio数据能够提取有效特征。且当动作不在视野内时也能发挥作用。而同时使用其他两种模态数据又能降低环境噪声对识别的影响。

使用不同步的输入数据启发于生物科学对人类神经和行为的研究，模仿了人类大脑中的相似结构。

文章提出了新的多传感器融合方法以及基于TSN改进的网络结构。

首先，将输入的video等分为K段，在每段里随机选取一帧， $m_{1k}$ ，把 $[m_{1k} - b, m_{1k} + b]$ 作为一个Temporal Binding Window (TBW)，在此TBW内选取其他模态的数据。

【ICCV2019】EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition

将3种模态数据分别输入基于Inception module 的网络中提取特征，然后进行 concatenate，再经过一个FC层，得到每个TBW的预测值。

【ICCV2019】EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition

对所有TBW的预测值求平均得到最后结果。

整个流程如下图：

【ICCV2019】EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition

EPIC-KITCHEN 数据集中，每个action被定义为一个动词加一个名词。文章中对3个模态识别动词、名词的效果做了可视化：

【ICCV2019】EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition

其中，左边是动词，右边是名词。

动词与时序信息相关性强，因此Flow信息对动词判断更加敏感。

单RGB模态就可以实现高准确率的名词识别。

而audio对有明显声音的动作效果很好。

整个数据集被划分成2个部分，S1 和 S2。每个部分又被划分为有不相关背景声音的(irrelevant)和剩余的(rest)。

【ICCV2019】EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition

从中可以看到，加入audio后准确率是有所提升的。即便加入的是噪声。

知乎：@陈小白233
公众号：一本正经的搬砖日常