《An Active Learning Approach for Reducing Annotation Cost in Skin Lesion Analysis》--阅读笔记-MLMI
Authors
Xueying Shi, Qi Dou, Cheng Xue, Jing Qin, Hao Chen, Pheng-Ann Heng
港中文王平安组是真的屌啊
Motivation
- 由于皮肤癌是人类最常见的恶性肿瘤之一,因此自动皮肤病变分析在临床实践中非常重要。现有的方法与深度学习已经取得了显着的紧张,但是,严重依赖于大规模标记数据集。文章目的是使用少量的数据,但是仍然取得SOTA的效果。实验在Skin Lesion Classi cation Challenge 上测试
- 通过主动样本选择,有效地减少了未标记样本池的数据冗余。然而,值得注意的是,图像集在颜色、纹理、形状和大小方面具有很高的类内偏差,如果直接使用这些样本,那么会陷入hard example mining的问题,同时面临过拟合问题
- 作者认为为了在很大程度上发挥其价值,更明智地使用所选样本的compact集也是非常关键的。然而,在现有的主动学习文献中,sample utilization策略较少受到关注。一个值得注意的方法是mix-up,它将新的训练数据作为来自不同类别的两个图像的像素加权加法进行扩充。然而,该方法不适用于类内variance较大而类间variance有限的情况,这正是我们在皮肤损伤分析中的情况。
Contribution
-
整体结构包含两个部分,1、样本选择。2、样本聚合
-
设计了一种双向评估标准,用来选择informative的样本和具有representative的样本。具有高互补性
-
为了从这些有价值但模棱两可的样本中获取更丰富、更易区分的特征,作者设计了一种在像素空间中增加类内图像的聚合策略(data augmentation)
-
在ISIC2017上测试达到了SOTA
Network
作者使用ResNet101(M)作为模型,初始条件为,表示标记的初始训练集,
表示oracle。
训练过程--Selective Annontation(SA)
informative的数据是通过训练的模型预测,选择low prediction con dences得到的,原因:这些数据都在desicion boundary附近,所以被认为不确定样本。
representative的数据是通过结合PCA特征和hashing方法得到
- 作者认为,置信度越低那么这个样本就包含越多的信息。所以有
,
,N是所有unlabel的样本,以上便选出了
个最不确定的样本。
- 考虑到样本的diversity问题,作者添加了不同的形状。用PCA和LSH得到
集合,处理过程如下
,K=10是LSH中的buckets的个数,
,γ是个参数。
- 最后,因为PCA和CNN是不同的操作不同的方法,因此最终获得的不确定样本为两者的交集
,进而再更新训练样本
训练过程--Aggregative Supervision(AS)
许多工作都在寻找sample,但是忽略了对已经找到的样本进行增强利用,以便产生更多的可辨识的特征。作者认为如果仅仅用选择出来的样本添加到训练集中,会引起over-fitting.原因:因为更新后的决策边界将是curly,以适应模糊边界的图像。因此作者提出AS:
- 聚集pixel space里面同样class的图像,成为2*2的图,如图2.这样的concanate提供了更加丰富的特征同时增加了鲁棒性,减少了intra class的偏移。
- 将aggregate的图像resize到原始大小,label就是这几个同样class的图的label。
- 使用了CNN最后fc层的输出+t-SNE,能够降维到pixel space