GridMask Data Augmentation
简介
GridMask是一种新的数据增强方法,它通过信息去除,在各种计算机视觉任务中实现了最先进的结果。
现存的数据增广方式主要分为以下三种:
1.空间变换,random scale, crop, flip,rotation
2.颜色扭曲,改变透明度,亮度等
3.信息删除,random erasing, cutour, hide-and-seek
信息删除
信息删除方法的核心要求是避免连续区域的过度删除和保留。一个成功的信息删除方法应该在删除和保留图像上的区域信息之间达到合理的平衡。原因有两方面:
1.过度删除一个或几个区域可能会导致完全删除对象和上下文信息。因此,剩下的信息不足以进行分类,图像更像是有噪声的数据。
2.过多的保留区域会使一些对象无法触及。它们是可能导致网络鲁棒性降低的琐碎图像。
如下图所示:
cutout和random erasing删除图像的一个连续区域,很容易造成目标保留和删除之间的不平衡。HaS的方法是将图片平均分成小方块,然后随机删除。它更有效,但是仍然有相当大的机会持续删除或保留区域。现有方法中一些不成功的例子如图1所示。
因此,设计一种减少引起这两个问题的机会的简单方法变得至关重要。
GridMask方法属于信息删除的方法,它随机在图像上丢弃一块区域,相当于在网络上增加一个正则项,避免网络过拟合,相比较改变网络结构来说,这种方法只需要在数据输入的时候进行增广,简单便捷。
GridMask方法使用结构化的删除区域,如删除均匀分布的正方形区域,可以在统计上更好地平衡之前提到的两种情况。具体为:gridmask既不会像Cutout那样移除一个连续的大区域,也不会像hide-and - seek那样随机选择方块。删除区域只是一组空间均匀分布的方块。在这种结构中,通过控制被删除区域的密度和大小,在统计上有更高的机会在两种情况下取得良好的平衡,如图所示。因此,可以在极低的计算预算下,大大改进了许多最先进的CNN基线模型。
GridMask
控制被删除区域的密度和大小主要靠r, d, x, y四个参数控制,其中r是保留区域比率,在论文中是一个固定值。d决定了删除区域的大小。x, y是删除区域的边长。
首先定义k,即图像信息的保留比例,其中H和W分别是原图的高和宽,M是保留下来的像素数,保留比例k如下,该参数k和上述的4个参数无直接关系,但是该参数间接定义了r:
d决定了一个dropped square的大小, 参数 x和 y的取值有一定随机性.
其实看起来,就是两个参数: r和d,r通过k计算而来,用于计算保留比例(核心参数),d用了控制每个块的大小。d越大,每个黑色块面积就越大,黑色块的个数就越少,d越小,黑色块越小,个数就越多。
下图为各种方法下的失败样本(过度保留目标或者过度删除目标,设定阈值为0.99)的概率:
使用GridMask的策略主要有两种,第二种更有效:
1.设置一个恒定的概率p,这样就有机会对每个输入图像应用gridmask
2.使gridmask的概率随训练时间线性增加,直到达到一个上界P。
参考
https://zhuanlan.zhihu.com/p/139764729
https://blog.****.net/weixin_42096202/article/details/103994237