论文思考:Multi-adversarial Faster-RCNN for Unrestricted Object Detection
本文提出一种无限制多对抗性的Faster RCNN(MAF)框架,来解决域差异最小化问题,来实现特征表示中的域自适应。
网络结构如下:
在VGG的高层特征提取中进行了三次域分类,加入梯度反转层和尺度缩减层,RPN和POIPlooling没有动,head部分利用级联运算符将检测和回归结果与与提议特征级联,用级联后的结果接加权梯度反转层,对具有较大梯度权重的硬混淆样本进行惩罚,并以较小的梯度权重缓解容易混淆的样本。
1.backbone部分:
将VGG网络的后三块每一块都接入GRL和SRM层,在高层特征处进行域分类,校准源域和目标域之间的分布差异。
思考:传统域适应没有去改变backbone部分的源域目标域特征分布对齐,因此实验表明在这里预先进行高层特征的域分类适应是很有效的,为了增加训练效率,增加SRM层,通过1*1卷积对特征图进行降维,通过s*s采样因子将原特征图的s*s像素合并成一个特征,并增加特征维数,再不损失信息的情况下缩减特征图的比例。(思考一下HRNet级联)
2.head部分:
用级联运算符将提议特征和检测结果进行汇总,为了实现语义对齐。提议特征是从RPN获得的,代表了一张图的本地特征。给定的输入图像xi,该图像的提议特征表示为F(xi,w),w为权重。该部分的loss函数如下:
为了应用对抗域转移策略,提出了WGRL来调整容易混淆的样本
如图所示,我们需要通过域分类器获得一个无法分辨是源域还是目标域图像的功能,也就是远离分类边界的样本需要让他们靠近分类边界,达到尽可能混淆的目的。因此 对梯度较大的权重进行惩罚:
该部分的梯度传播函数如上图,p为源域的提议概率,1-p为目标域的提议概率,d为图像的域标签(只有源域还是目标域的区分,因此是一个二值),预测分数作为梯度的权重,域分类器较高的置信度表示需要进一步改善域分类性能,并且自动加权。
思考:该方案是基于提议特征和检测结果级联之后的结果送入梯度反转来实现的,若是直接将head的分类和回归串联是否也可以达到提高的效果呢?
3.loss部分
(1)FRCNN检测损失只存在于源域,因为类别标签和框都属于源域,目标域没标签。
(2)对抗域损失分为两部分,一部分是VGG特征提取层的三块对抗域损失,另一部分是聚合提议特征部分的损失。