Temporal Relational Reasoning in Videos

Temporal Relational Reasoning in Videos

框架

Temporal Relational Reasoning in Videos

TRN(Temporal Relation Networks)

公式:
T2(V)=hϕ(i<jgθ(fi,fj)) T_{2}(V)=h_{\phi}\left(\sum_{i<j} g_{\theta}\left(f_{i}, f_{j}\right)\right)

T3(V)=hϕ(i<j<kgθ(fi,fj,fk)) T_{3}(V)=h_{\phi}^{\prime}\left(\sum_{i<j<k} g_{\theta}^{\prime}\left(f_{i}, f_{j}, f_{k}\right)\right)

T4(V)=hϕ(i<j<k<lgθ(fi,fj,fk,fl)) T_{4}(V)=h_{\phi}^{\prime}\left(\sum_{i<j<k<l} g_{\theta}^{\prime}\left(f_{i}, f_{j}, f_{k}, f_{l}\right)\right)

Multi-Scale Temporal Relations

MTN(V)=T2(V)+T3(V)+TN(V) M T_{N}(V)=T_{2}(V)+T_{3}(V) \ldots+T_{N}(V)

优点

文章指出,TRN的强大之处在于能够解释视频常识,这个是优于C3D和I3D(后续会介绍,常用算法)的地方:

  1. 视频中具有代表性的画面有利于TRN识别一个活动;
  2. 对于同一类视频,具有很好的适用性;
  3. 对行为识别来说,TRN的时序性很重要,尤其是单方向的动作;
  4. 能够在动作的早期完成识别。