CVPR 2018 SA-Siam:《A Twofold Siamese Network for Real-Time Object Tracking》论文笔记
理解出错之处望不吝指正。
本文模型叫做SA-Siam。本文提出了一个结合Semantic features(语义特征)和Appearance features(表征特征)的模型,其实类似于一个双路模型,为了保持这两种特征的异质性,这两路特征要分别训练,训练语义特征的网络叫做S-Net,训练表征特征的网络叫做A-Net。作者还在S-Net中加入了一个chanel attention机制。
模型的整体结构如下:
S-Net视为一个图像分类问题去训练,A-Net视为一个相似学习问题去训练,这样两部分可以更好的互补。
为什么在S-Net中加入channel attention机制?
高等级的语义特征对图片的形变、旋转等具有很好的鲁棒性,但是却导致判别力低。为了增加语义特征的判别力,作者设计了channel attention模块。模块如下图: