video analysis -- 时序动作提名-BMN
本文的主要贡献是通过引入一种全新的时序提名评估机制以及高效的特征采样方式,来提升了BSN方法的性能和效率
这篇论文中提出了一种新的时序提名置信度评估机制-边界匹配机制(Boundary-Matching mechanism, BM mechanism),以及基于边界匹配机制的边界匹配网络(Boundary-Matching Network, BMN)。BMN网络能够同时生成与BSN中类似的一维边界概率序列,以及二维的BM置信度图来密集的评估所有可能存在的时序提名的置信度分数。
方法:
3.1 Problem Formulation:
3.2. Feature Encoding.
3.3. Boundary-Matching Mechanism
引入边界匹配(Boundary-Matching)机制为密集分布的proposals生成置信分数。首先,我们将temporal proposal φ表示为其开始边界 和结束边界
的匹配对。如图2所示,BM机制就是为了生成二维的BM置信图
。它是由不同的“开始”和“持续时间”的BM对组成的。图中点
的值表示提名
的置信分数,其中开始边界
,持续时长
,结束边界
。
这里可以理解为置信图的每一个坐标点都是一个proposal的起始点,多少个坐标点就有多少个proposal,有些proposal可能只有一两帧。
Boundary-Matching layer.
3.4. Boundary-Matching Network
与BSN网络的多阶段框架不同,BMN同时生成定位边界概率序列和全局proposal置信图,整个模型在一个统一的框架中训练,如图4所示。BMN模型包含3个模块:Base Module 处理输入特征序列并且输出被以下两个模块共享的特征序列;Temporal Evaluation Module 计算视频中每个位置的开始和结束概率,生成边界概率序列;Proposal Evaluation Module 包含BM层将特征序列转换成BM特征图,并且包含一系列3D和2D卷积层生成BM置信图。
Base Module. 它的目的是处理输入特征序列,扩展接收域并且作为网络的主干,为TEM和PEM提供一个共享的特征序列。因为原始视频有不确定的时序长度,我们采用一个长度为 长观察窗口来截取长度为
原始特征序列。
3.5. Training of BMN
在BMN中,TEM学习局部边界上下文和PEM模式全局建议上下文。为了共同学习局部模式和全局模式,利用统一的多任务框架进行优化。本节将介绍BMN的训练细节。
从这里可以看出,观察窗口的作用就是将窗口内的数据量当做一次小的batch。
3.6. Inference of BMN
5. Conclusion
在本文中,我们引入了边界匹配机制来评估分布密集的proposal的置信度,通过将proposal表示为BM对,并将所有提案合并为BM置信度图来实现。同时,我们提出了边界匹配网络(BMN)用于有效和高效的temporal action proposal生成,其中BMN通过结合高概率边界生成具有精确边界和灵活持续时间的proposal,并同时生成基于BM机制的所有proposal的可靠置信分数。大量的实验表明,BMN在proposal生成和时间动作检测任务方面都优于其他最先进的proposal生成方法,具有显著的效率和可推广性。