Temporal Relational Reasoning in Videos
框架

TRN(Temporal Relation Networks)
公式:
T2(V)=hϕ(i<j∑gθ(fi,fj))
T3(V)=hϕ′⎝⎛i<j<k∑gθ′(fi,fj,fk)⎠⎞
T4(V)=hϕ′⎝⎛i<j<k<l∑gθ′(fi,fj,fk,fl)⎠⎞
Multi-Scale Temporal Relations
MTN(V)=T2(V)+T3(V)…+TN(V)
优点
文章指出,TRN的强大之处在于能够解释视频常识,这个是优于C3D和I3D(后续会介绍,常用算法)的地方:
- 视频中具有代表性的画面有利于TRN识别一个活动;
- 对于同一类视频,具有很好的适用性;
- 对行为识别来说,TRN的时序性很重要,尤其是单方向的动作;
- 能够在动作的早期完成识别。