图像数据增强读书笔记
A Survey on Image Data Augmentation for deep learning
Ref:
1. A survey on Image Data Augmentation for Deep Learning
2. Generative Adversarial Network in Medical Imaging- A Review
1. 目的是解决过拟合问题
常用方法有:
- Dropout Batch normalization 等正则化方法
- Transfer learning, pretraining 等训练方法
- one-shot, zero-shot等元学习方法
- 增加数据质量和数量
2.图像数据增强的常用方法
3. Basic Image Manipulations
Geometrric transformation 基于位置的变换,包括:
- rotation
- flipping
- cropping
- translation: shift the image up/down to avoid positional bias
Color space transformation 基于图像色彩空间的变换,包括:
5. change color space like RGB
6. color jittering
7. edge enhancement
8. PCA
Noise injection 把噪声注入到图片
Kernel filter 使用sharpen或blur到图片上,这个方法也可直接作用于模型中
Mixing Images 混合图像法
Random earsing 随机擦除一部分图像做掩模,作为增强的图像
4.Deep Learning Based Methods
- Feature Space Augmentation, 对已经通过模型处理的(嵌入的图片)图片特征向量做处理
- Adversial Training,使用如噪声注入的方法攻击当前图像,作为数据增强。
- GAN based methods 使用GAN生成新的图像
- Neural Style Transfer 使用深度学习,把图像从一种表示转变到另一种表示,空间向量的转变。
5.Other Methods
- Test-time augmentation 在测试的时候增强测试数据,可以使模型更加stable
- Curriculum learning 使用循环训练数据的方法,对抗在选择训练数据random selection带来的问题
- Resolution Impact 对于分辨率的操作,如生成超分辨率的图像以提升模型性能
6. Evaluation
使用Visual Turing Test对生成的数据进行测试,看是否满足评估标准
7. GAN 为核心的方法
GAN在图像生成方向可大致分为三类
基于判别器的改进:
- 对于loss的改进, f-divergence(f-GANs),least-squarel (LSGANs),hinge loss,Wasserstein distance(WGAN)
- 由于GAN无法做推理,故提出了ALI,BiGAN,InfoGAN
基于生成器的改进:
- 对于生成图像的约束 conditional GANs
- 图像翻译 CycleGAN,UNIT
基于GAN结构的改进:
- 上/下采样 DCGAN
- 高分辨率图像 LAPGAN
- 风格转换 StyleGAN,SPADE
8.GAN用于图像数据生成
- unconditional methods: 随机输入噪声,输出为图像,一般是按类生成。DCGAN,WGAN,PGGAN
- modality cross:在多模态的限制下,输入输出都为图像,意在用不同的空间向量表达同一图像。CycleGAN
- 其他条件限制:如text,segment,location等,一般基于通用的conditional GANs
9.结论和感想
- 图像增强可以分为 image warping 和 oversampling两类
- 图像的成对翻译在数据增强方向仍有潜力
- 一些方法是可以结合的,如random earsing可以与多种模型结合,GAN由于其内在递归属性,从GAN中生成的数据可以用传统方法进行二次增强
- 未来的研究会集中提升在GAN生成样本的质量上,
- 将元学习与数据增强结合,可能会揭示为什么数据增强能影响分类任务
- 可以使用GAN+NAS的思路做数据增强