video analysis -- 时序动作提名-BMN

本文的主要贡献是通过引入一种全新的时序提名评估机制以及高效的特征采样方式，来提升了BSN方法的性能和效率

这篇论文中提出了一种新的时序提名置信度评估机制-边界匹配机制（Boundary-Matching mechanism, BM mechanism），以及基于边界匹配机制的边界匹配网络（Boundary-Matching Network, BMN）。BMN网络能够同时生成与BSN中类似的一维边界概率序列，以及二维的BM置信度图来密集的评估所有可能存在的时序提名的置信度分数。

方法：

3.1 Problem Formulation：

3.2. Feature Encoding.

video analysis -- 时序动作提名-BMN

3.3. Boundary-Matching Mechanism

引入边界匹配（Boundary-Matching）机制为密集分布的proposals生成置信分数。首先，我们将temporal proposal φ表示为其开始边界 video analysis -- 时序动作提名-BMN 和结束边界的匹配对。如图2所示，BM机制就是为了生成二维的BM置信图。它是由不同的“开始”和“持续时间”的BM对组成的。图中点的值表示提名的置信分数，其中开始边界，持续时长，结束边界 video analysis -- 时序动作提名-BMN 。

video analysis -- 时序动作提名-BMN

这里可以理解为置信图的每一个坐标点都是一个proposal的起始点，多少个坐标点就有多少个proposal，有些proposal可能只有一两帧。

Boundary-Matching layer.

video analysis -- 时序动作提名-BMN

3.4. Boundary-Matching Network

与BSN网络的多阶段框架不同，BMN同时生成定位边界概率序列和全局proposal置信图，整个模型在一个统一的框架中训练，如图4所示。BMN模型包含3个模块：Base Module 处理输入特征序列并且输出被以下两个模块共享的特征序列；Temporal Evaluation Module 计算视频中每个位置的开始和结束概率，生成边界概率序列；Proposal Evaluation Module 包含BM层将特征序列转换成BM特征图，并且包含一系列3D和2D卷积层生成BM置信图。

Base Module. 它的目的是处理输入特征序列，扩展接收域并且作为网络的主干，为TEM和PEM提供一个共享的特征序列。因为原始视频有不确定的时序长度，我们采用一个长度为 video analysis -- 时序动作提名-BMN 长观察窗口来截取长度为原始特征序列。

video analysis -- 时序动作提名-BMN

3.5. Training of BMN

在BMN中，TEM学习局部边界上下文和PEM模式全局建议上下文。为了共同学习局部模式和全局模式，利用统一的多任务框架进行优化。本节将介绍BMN的训练细节。

video analysis -- 时序动作提名-BMN

video analysis -- 时序动作提名-BMN 从这里可以看出，观察窗口的作用就是将窗口内的数据量当做一次小的batch。

video analysis -- 时序动作提名-BMN

3.6. Inference of BMN

video analysis -- 时序动作提名-BMN

5. Conclusion

在本文中，我们引入了边界匹配机制来评估分布密集的proposal的置信度，通过将proposal表示为BM对，并将所有提案合并为BM置信度图来实现。同时，我们提出了边界匹配网络(BMN)用于有效和高效的temporal action proposal生成，其中BMN通过结合高概率边界生成具有精确边界和灵活持续时间的proposal，并同时生成基于BM机制的所有proposal的可靠置信分数。大量的实验表明，BMN在proposal生成和时间动作检测任务方面都优于其他最先进的proposal生成方法，具有显著的效率和可推广性。

video analysis -- 时序动作提名-BMN

方法：

3.1 Problem Formulation：

3.2. Feature Encoding.

3.3. Boundary-Matching Mechanism

Boundary-Matching layer.

3.4. Boundary-Matching Network

3.5. Training of BMN

3.6. Inference of BMN

5. Conclusion

相关推荐