【ICCV2019】EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition

论文下载链接:

EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition

主要思想

  • 使用 Audio-Vision-Flow 3种模态数据
  • 作为输入的3种数据在时序上不同步,但时差在一定范围内
  • 在网络中段进行数据融合,即mid-fusion

简介

文章使用EPIC-KITCHEN数据集,包括3种模态数据,分别为video,audio,motion。其中motion数据是从video数据种计算得出的optical flow。

audio数据的优点在于能够捕捉丰富的手物交互时产生的声音。尤其当交互过程中会发出特征明显的声音时(如油煎食物),audio数据能够提取有效特征。且当动作不在视野内时也能发挥作用。而同时使用其他两种模态数据又能降低环境噪声对识别的影响。

使用不同步的输入数据启发于生物科学对人类神经和行为的研究,模仿了人类大脑中的相似结构。

文章提出了新的多传感器融合方法以及基于TSN改进的网络结构。

算法流程

首先,将输入的video等分为K段,在每段里随机选取一帧,m1km_{1k},把 [m1kb,m1k+b][m_{1k} - b, m_{1k} + b] 作为一个Temporal Binding Window (TBW),在此TBW内选取其他模态的数据。

【ICCV2019】EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition

将3种模态数据分别输入基于Inception module 的网络中提取特征,然后进行 concatenate,再经过一个FC层,得到每个TBW的预测值。

【ICCV2019】EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition

对所有TBW的预测值求平均得到最后结果。

整个流程如下图:

【ICCV2019】EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition

网络的一些细节

  • 在每个模态的网络种,所有 K 段的网络参数都是共享的
  • 为适应不同长度的视频,b 的选取是关于视频时长的函数
  • K 和 b 的选取是相互独立的,即允许 TBW 之间有互相重叠的部分

实验

EPIC-KITCHEN 数据集中,每个action被定义为一个动词加一个名词。文章中对3个模态识别动词、名词的效果做了可视化:

【ICCV2019】EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition

其中,左边是动词,右边是名词。

动词与时序信息相关性强,因此Flow信息对动词判断更加敏感。

单RGB模态就可以实现高准确率的名词识别。

而audio对有明显声音的动作效果很好。

关于背景声音干扰的实验

整个数据集被划分成2个部分,S1 和 S2。每个部分又被划分为有不相关背景声音的(irrelevant)和剩余的(rest)。

【ICCV2019】EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition

从中可以看到,加入audio后准确率是有所提升的。即便加入的是噪声。

源码

Github: https://github.com/ekazakos/temporal-binding-network

知乎:@陈小白233
公众号:一本正经的搬砖日常

不点个赞再走吗~