【论文笔记】同时进行线性配准和可变形配准的医学图像配准网络模型
本文是论文《Linear and Deformable Image Registration with 3D Convolutional Neural Networks》的阅读笔记。
一、概述
文章提出了一个可以实现线性和可变形(deformable)配准的模型。
可变形配准的目标是计算一个最优的非线性密度变换来将源(浮动)图像对齐到参考(目标)图像,得到配准后的源图像。基于深度学习的配准通常有以下缺陷:
- 依赖于变换的线性分量;
- 依赖于用作监督学习的ground truth位移场。
文章的主要贡献如下:
- 在同一个网络结构中同时解决了线性和可变形配准问题;
- 一个不依赖不同相似性度量的模块化、无参数的实现;
- 减少了配准的时间,实现了配准的实时性;
- 将变形(deformation)和临床信息联系起来。
二、方法
在下文中,变形(deformation)、网格(grid)和转换(transformation)将是同一个意思,即可互换的。
1. 线性和可变形转换
3D转换层(类似于空间转换网络,STN)是配准网络的一个重要组成部分,它可以根据变形将输入图像进行变换得到图像,即:
其中表示在变形下的采样操作,是密度变换。
采样过程可以用下式来表示:
其中,表示体素位置,表示一个轴,表示的第个分量。
线性(仿射)配准需要根据预测一个的仿射变换矩阵,其中表示需要变形的增广点,表示在变形后的图像中它们的位置。然后就可以用矩阵得到一个采样网格来进行采样。
可变形配准部分是直接生成一个用来采样每个体素的采样坐标。如果没有合适的正则项,那么将会产生不平滑甚至不相关的变形,为了避免这个问题,采取的办法是在每个维度预测变形的空间梯度,而不是直接预测变形本身。接下来在每个维度进行集成操作,即通过在每个维度进行简单的累加来实现。例如,当时,在变形后的图像的轴上的体素和之间的距离没有变化;当时,轴上连续体素之间的距离将会减少;反之,当时,距离将会增加。这种方式可以产生平滑的形变场以避免自交叉。
为了组合这两个部分,先对运动图像应用可变形分量,然后再应用线性分量,即:
2. 网络结构
模型的网络结构如上图所示,网络包括编码器和解码器两部分,编码器采用的是空洞卷积,并且进行了多分辨率特征合并;解码器部分采用的是普通卷积和上采样操作。卷积核的大小是,除了最后两层都以Leaky ReLU作为**函数,在多数**函数前使用了实例正则化操作。在编码器中一共有5层,每层的输出经过合并后得到编码器的输出,形成接收域为,有290个特征的特征图。解码器有两个分支,一个是就散空间变形的梯度,另一个是计算仿射矩阵。第一个分支加入了squeeze-excitation块,用来加权空间梯度计算中最重要的特征;第二个分支使用了一个全局平均操作来减少空间维度到一维。这两个分支分别采用了sigmoid和线性**函数。sigmoid**函数后还需要乘以2,以让输出范围在[0,2]之间。
3. 训练
模型采用的MSE来评价图像的相似性,使用Adam作为优化器,模型的损失为:
其中表示恒等仿射变换矩阵,表示恒等变换的空间梯度,是正则化权重。如果没有上的正则化,则网络可能陷入局部最小值,此时只能使用仿射变换对齐高维特征;如果没有上的平滑正则项,空间梯度编码器网络会生产不平滑的网格,从而陷入局部最小值。
初始学习率为,如果在验证集上50个epoch效果没有提升,则学习率变为之前的十分之一,当100个epoch效果没有提升时,则停止训练,一共训练300个epoch。,batch size为2,没100个batch就会评估一次训练的效果。
三、实验
选用的baseline是ANTs包中的SyN,相似性度量有衡量配准后肺部mask标签的NCC、MI、DWM(discrete wavelet metric)。此外还会使用提供的地标位置来计算配准后的误差。
在第一组实验中,用不同的方法对吸气和呼气时的肺部MRI图像进行配准,并对比其效果,如上表所示;测试了三种不同的相似性度量标准,以及它们组合使用的效果,MI度量产生了最高的Dice值;实验表示,对于本文提出的模型来说,在转换层添加一个线性分量不会明显的改变模型的性能;最后计算了配准后11个地标点在每个轴的误差。
上表展示了不同方法在变形后图像的地标点和ground truth图像的地标点之间的欧几里得距离,其中Inter-observer是两个专家在同一个图片上标记地标点之间的欧几里得距离。分别是在轴上的距离,是所有轴上的平均误差。
第二组实验,使用13个病人的组合来得到Dice值,发现线性分量的作用更重要。
上图展示了模型的配准效果。
为了评估解码后的转换在临床环境中的相关性,我们在获得的残余变形(residual deformation)上训练了一个小分类器来将患者分为健康或不健康。残余变形和一对表示体素位移的图像相关,写为:,其中是两张图像推测的变形,是恒等变形。具体的使用了一个MLP(多层感知机)来预测一个样例是健康还是不健康。该模型包括批量正则化以避免过拟合,**函数使用的是Tanh,下采样的卷积核大小为,步长为2,填充为1。隐藏层的单元数为100。使用二值交叉熵损失,学习率为,每经过50个epoch学习率减半。在测试集上的阈值为0.5。
上图是上述MLP的结构示意图。
上表是在测试集上疾病预测的准确率。