一、基于视频的时序建模和动作识别方法

当前视频行为识别主要是在三种场景：

视频动作识别的机遇和挑战:

机遇：视觉信息提供了大量、丰富的数据用于视觉理解；动作是运动感知的核心且能够衍生许多视频理解的应用。

挑战：复杂的动态时序变化，动作的定义不明确，噪声和行人的弱标记信息，昂贵的计算资源和存储代价。

由于视频在图像的基础上增加了一维时序信息，王利民老师从短期（Short Term）、中期（Middle Term）、长期（Long Term）三个角度对视频的时序信息进行建模。首先，回顾了基于深度学习的视频行为识别主流方法，比如two-stream，C3D，SlowFast Network。

然后，王老师重点分享了其本人在视频行为识别的一些工作。主要包括:

VALSE学习（十二）：视频时序建模和动作识别

VALSE学习（十二）：视频时序建模和动作识别