Attention机制在计算机视觉中的应用(三)：CVPR2019通用目标检测 Towards Universal Object Detection by Domain Attention

论文地址：Towards Universal Object Detection by Domain Attention

该论文提出了一个通用的物体检测模型，适用于任一目标检测场景，在多个数据集上表现良好。该模型基于SENet，将多个SENet得到的特征图连接在一起，并且提出了domain attention，将其施加在连接好的特征图后，这样能够使模型更好地适应不同场景下的目标检测任务。

论文中指出，以往训练的目标检测模型基本都是针对某一领域、某一场景或某一数据集下的目标检测任务(放屁)，这些目标检测模型如下图所示：

然后将这些模型组合在一起，就能更好地完成多场景检测任务，如下图所示：

Attention机制在计算机视觉中的应用(三)：CVPR2019通用目标检测 Towards Universal Object Detection by Domain Attention

论文基于此思想，使用了多个SENet来实现通用目标检测，并且提出了Domain attention，这个attention机制应该是用来让模型适应不同场景下的目标检测任务，原文是这么说的：there is no need to request that each detector operates on a single domain, and a soft domain-assignment makes more sense. (所以现在的attention机制既能在时空上加权，又能在通道上加权，还能在场景上加权？？？大家可以集思广益，看看还有什么地方有加attention的操作)

首先，需要介绍一下SENet，下面是SENEet模型的结构图：

Attention机制在计算机视觉中的应用(三)：CVPR2019通用目标检测 Towards Universal Object Detection by Domain Attention

这里用残差结构是因为使用了残差结构后SENet模型可以随意插入其他的模块，更多的就不介绍了，看我博客上的SENet的Pytorch代码就够清晰了：https://blog.****.net/qq_35985044/article/details/90142431

然后是论文提出的模型结构：

Attention机制在计算机视觉中的应用(三)：CVPR2019通用目标检测 Towards Universal Object Detection by Domain Attention

由上图可以看到，该模型就是将多个SENet得到的结果连接到一起，同时提出一个Domain Assignment结构，该结构也基本上是借鉴SENet的，用于在检测场景上施加Attention操作，最后得到一个综合了通道attention和domain attention的CX1X1的结构，该结构最后和原特征图做channel-wise multiplication。过程比较简单，论文里的公式都不想写过来了。

Attention机制在计算机视觉中的应用(三)：CVPR2019通用目标检测 Towards Universal Object Detection by Domain Attention

相关推荐