Mask R-CNN论文笔记

1.掩膜分支对每个RoI的输出维度为K*m*m,即,对每个分类(共k个)都生成一个是该类的概率的heatmap。 

2.此处的Loss为L=Lcls+Lbbox+Lmask  ,Lcls    Lbbox定义方式与faster rcnn一致。

3.This pixel-to-pixel behavior requires our RoI features,which themselves are small feature maps。

RoI为什么本身也是小feature?

     因为RoI层是接在CNN卷积层后的,直接在feature map上做的预测。在此时,RPN层预测的bbox参数,是相对于feature map的位置。

为什么需要ROI pooling还有ROIAlign,就是因为要把相对于feature层的bbox坐标,还原到原图像上,这是一个类似于decode的过程。

4.这里的anchor box和predicted box 有什么区别?(此处是Faster Rcnn论文里的)

     

Mask R-CNN论文笔记

6.最后mask的阶段,28*28*256 变成28*28*80(类别数目)。参考下面的对应的代码。

Mask R-CNN论文笔记

Mask R-CNN论文笔记