Two-Stream CNN with Loose Pair Training for Multi-modal AMD Categorization

Two-Stream CNN with Loose Pair Training for Multi-modal AMD Categorization

论文地址:https://arxiv.org/abs/1907.12023
亮点:多模态CNN, Loose Pair Training


Two-Stream CNN with Loose Pair Training for Multi-modal AMD Categorization来自于MICCAI,对于年龄相关性黄斑病变(AMD),通过眼底图像(Fundus image)以及OCT图像都能有较好的分类效果,本文考虑结合两种模态的图像来共同分类,将图像分为三类[normal、dry AMD、 wet AMD]。

Mutil-Model CNN 结构如下:
Two-Stream CNN with Loose Pair Training for Multi-modal AMD Categorization
MM-CNN是一个双流的架构,具有两个分支,两个分支的结构相同,文章中采用的是Resnet-18作为backbone,也可以替换为其他的网络结构。为了保持两个分支结构的一致性,将OCT图像首先预处理为RGB格式再输入网络(RGB三个通道上数值相同)。输入数据格式为3x448x448,经过Resnet-18的处理后得到512x14x14,然后并没有直接输入全连接层,而是分别采用Global Average Pooling操作,将每一张特征图处理为一个均值,两个分支分别得到1x512的向量,将两个向量在最后一层融合,得到1x1024维度的向量输入全连接层,然后进行softmax分类,得出最后各个类别的概率。

Loosing Pair Training
本文提出了一种Loose pair 的训练方法,可以解决数据集缺乏的问题。直观上,我们会认为这种训练任务需要的OCT图像和眼底图像应该来自于同一只眼睛才会有好的效果,但数据集的缺乏会导致模型的性能达不到最优。文章作者提出了一种假设,两种模态的数据不一定非要来自于同一只眼睛,只要他们的标签相同,就可以配对放入网络进行训练,采用这种方法训练得到的效果也验证了他的假设的有效性,即Loose Pair Training,大大增强了数据集数量,利于模型训练。

结果:
Two-Stream CNN with Loose Pair Training for Multi-modal AMD Categorization
MM-CNN-S : Mutil-Model CNN without Loosing Pair Training
MM-CNN-L : Mutil-Model CNN with Loosing Pair Training
结果显示文章提出的方法效果提升明显。


思考:
目前在做的通过眼底图像和OCT图像预测颈动脉粥样硬化类别的项目在很大程度上可以参考本文的思想,结合两种模态的数据来进行分类预测,也可以采用Loosing Pair Traning 的方式来训练模型,因为与本文一样,都面临着医学图像处理难以避免的问题:数据集缺乏,特别是患病数据集。
本文没有提及是否进行了预处理,考虑到眼底图像的复杂性,可能会受到拍摄时的光照等各种影响,将眼底图像预处理后在输入网络可能会有更好的效果,也可以考虑加入attention机制。