基于多峰成像遗传学数据的帕金森病相关基因和大脑区域预测的新型GERNNE方法
基于多峰成像遗传学数据的帕金森病相关基因和大脑区域预测的新型GERNNE方法
前言
这几天在看一篇论文,想和大家分享一下。
阅览文章之前记得一键三联哦,做文章不容易,十分感谢大家的鼓励。
这里我只是用自己的话简单概括了文章的大致主体意思,由于这篇论文没有代码,所以我没办法复现。
主要还是学习方法和思想,如果想看原文,请移步网站,支持作者的创作成果。本博客全是基于自己的理解创作的,所以有大佬能够指出本博客的错误,在下定当万分感谢。
这篇文章来自ScienceDirect.
A novel CERNNE approach for predicting Parkinson’s Disease-associated genes and brain regions based on multimodal imaging genetics data[1]
Xia-an Bi, Xi Hu, Yiming Xie, Hao Wu
PII: S1361-8415(20)30194-8
DOI: https://doi.org/10.1016/j.media.2020.101830
Reference: MEDIMA 101830
T o appear in: Medical Image Analysis
Received date: 26 April 2020
Revised date: 24 July 2020
Accepted date: 1 September 2020
一、提纲
1.概述
-
设计了一种实用的多峰特征融合方法,以检测大脑区域和基因之间的序列信息的相关性,并提取出更多可识别的特征。
-
提出了一种创新的神经网络集成模型CERNNE,以分析样本的融合特征。该方法使用聚类演化策略来优化集成学习者,以获得更好的分类结果。
-
本文研究提供了检测PD相关基因和大脑区域的综合框架。
2.学术简称
本博客可能出现的名词缩写
PD 帕金森症
GERNNE 神经网络集成模型
AAL 解剖自动标记
ROI 感兴趣模块
ANN 人工神经网络
BPNN 反向传播神经网络
PNN 概率神经网络
ElmanNN 艾尔曼神经网络
LVQNN 学习矢量量化中心网络
Competitive NN 竞争性神经网络
FMRI 功能磁共振成像
SNP
二、背景与问题
1.背景
- FMRI单独用于识别PD,很少考虑融合数据。
- 大多数使用成像和遗传数据对PD进行的仅关注过程本身,忽略了对综合框架的分析。
- 人工神经网络在PD多峰研究中还有很大的潜力。
2.问题
- 如何将fMRI数据与基因数据融合
- 怎样设计基于机器学习的PD多模式融合框架设计
三、目标与步骤
1.目标
- 将fMRI数据与基因数据融合是全面探讨PD的致病因素的可行方法
- 挖掘ANN在PD多峰融合研究中的潜力
- 基于机器学习的PD多模式融合框架的设计
2.步骤
- 测试多种相关分析方法,并选择了提取基因与大脑区域之间关联的最佳方法作为多峰数据的融合特征。
- 提出了一种改进的聚类演化随机神经网络集成(CERNNE)神经网络模型。引入层次聚类的思想,以进行自适应动态优化。
- 以CERNNE为核心,构建PD的多模态融合框架,以实现特征构造,患者识别和病因预测的多任务分析。
四、方法与创新点
此图片来自论文。
下面是我自己的理解
PD的多峰数据融合分析框架,该框架实现特征构建,患者识别和病变检测的功能。该框架由以下四个部分组成,包括多模式数据预处理,融合功能构建,样本分类和与PD相关的基因以及大脑区域预测。
- 用AAL模板预处理静态fMRI图像得到ROI,提取ROI功能时间时间序列。
- 与此同时,对SNP重组,得到基因序列
- 经过相关分析方法,得到融合特征矩阵
- 对GERNNE模型进行优化
- 提取到高频特征并可视化
接下来请听我娓娓道来
1.多峰数据集和预处理
所有功能磁共振成像数据均由DPARSF软件进行预处理。
SNP的预处理由PLINK软件执行
2.提取融合特征
- 通过AAL模板将预处理的fMRI图像分割为90个感兴趣区域(ROI),提取每个ROI的功能时间序列,其长度为 fl。
- 我们在NCBI和Ensemble网站上查询其参考SNP(rs)编号,以确定它们所属的基因。然后我们根据它们对应的基因对SNP进行分组,并根据基因中SNP的位置排列SNP组。我们选择SNP数量大于作为候选基因并离散地重新编码基因。这四个碱基A,T,C,G 根据PLINK(1.07)文档(Purcell,2012),将SNP中的SNP分别重新编码为1、2、3和4 ,从而获得基因组的数字序列。最终,ROI的时间序列长度通常大于基因序列长度。
- 截取ROI的时间序列长度等于基因序列长度从fMRI数据获得90个大脑区域的功能时间序列,并从遗传数据中提取23595个SNP。为了确保融合特征构建的有效性,我们控制了ROI和SNP序列的长度,以便将所有序列转换为相同的长度。详细地,我们保留了45个SNP组,其中包含40个以上的SNP,并离散化了每个SNP组的前40个SNP,以获得长度为80的基因数字序列。大脑区域的功能时间序列也被调整为80,我们选择的上述长度阈值是通过重复实验确定的,每个样本最终成为一组4050维融合特征。
- 通过Pearson相关分析方法,计算ROI和基因序列之间的关联作为融合特征。
3.pearson相关分析方法
Pearson相关系数
最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性越强。该系数的计算和检验为参数方法,适用条件如下: (适合做连续变量的相关性分析)
(1)两变量呈直线相关关系,如果是曲线相关可能不准确。
(2)极端值会对结果造成较大的影响
(3)两变量符合双变量联合正态分布。
Wr代表ROI的功能时间序列,Ss是基因序列,l代表每个ROI或者基因的长度
4.GERNNE
简化版叙述
-
随机抽30%为测试样本,这其中7:3分为训练,验证
-
从融合特征中随机选择作为分类器的输入特征
-
构造单个分类器,Z次,Z个。
-
对分类器进行聚类学习,相似性的衡量标准DM
假设两个分类器ANN1和ANN2
Z00:两个分类器都识别错误的样本数量
Z01:只有ANN2识别错误的样本数量
Z10:只有ANN1识别错误的样本数量
Z11:ANN1和ANN2都是别正确的样本数量 -
构造相似度矩阵Matrixs
这里DM(z,1)表示ANNZ与ANN1分类器之间的差异度
相似度越高,DM越小 -
聚类演化
保留集群中具有最佳性能的基本分类器
在分类器集群中留下最终达到演化时间所设阈值的分类器
ANNensemble表示该W下的所保留的基础分类器的数量
W表示对应的整体学习器峰值性能的演化时间
Z表示初始分类器的数量
cl表示迭代步长,也就是每次W下优化掉的分类器的个数 -
最终模型的投票决策
也就是如何在最佳分类器集群中得到最终的结果。
这里很简单,平均值,每个分类器享有同等的投票权。
结果集:
等式计算分类结果
最大值的标签
这里x为测试样本,fk(x)表示第k个分类器的分类结果。
I(∗)为指示函数,如果第i个分类器预测测试样本x属于A类,则I(fi(X)=A)的值为1,否则为0。最大值的标签是未分类样本的最终类别
下面附上原论文中的流程表
五、参数优化以及最可识别特征
1.最可识别特征
输入特征对分类器的分类影响很大,所以如何提取最佳特征是一件非常重要的事。
- 对重复出现的不同融合特征,在这其中选取高频特征
- 反向序列搜索算法,采取e高频降序搜索
- 单独分析,对包含在融合特征中大脑区域和基因做单个分量提取并分别统计出现的频率。
在对最佳CERNNE的集成性能进行了多次测试之后,平均分类精度为88.6%
第一阶段,我们计算了最佳CERNNE模型中基本分类器中输入特征的频率,并为下一阶段的特征提取了400个高频特征。分析。通过上述操作,可以将最容易识别的特征的搜索范围缩小到400维。
第二阶段400个高频特征被分为融合特征的几个子集。具体来说,第一个特征子集由前70个高频特征组成。然后,我们按照频率递减的方式逐渐增加子集中特征的数量,步长为5,直到子集中包含所有400个高频特征。
2.参数优化
- 分类器类型,演化数,ANN数量
- 类型BPNN,PNN,ElmanNN,LVQNN,CompetitiveNN
- 数量K,
- 采用网格搜索最佳参数(分类器的个数[c,d])聚类演化
六、其他参数设置
具体而言,将BP NN,Elman NN和LVQ NN的隐藏层数设置为5,将其他网络的参数设置为MATLAB平台的默认参数。此外,所有神经网络基础分类器的迭代训练数量为300。对于任何类型的神经网络集合,我们将其基础分类器的训练样本数量和随机输入特征分别设置为50和64,并将初始集成学习器中的基本分类器设置为500。
七、局限性与结论
-
局限性
实验数据少
模型性能还有提升空间 -
结论
本文试图设计一种实用的多峰融合分析框架。主要贡献包括三个部分。通过相关性分析检测基因与大脑区域之间的相互作用,并根据多峰信息互补的优势,构建具有更多识别能力的融合特征。本文提出了一种新的集成学习器来分析融合特征,实现了对PD患者的识别准确率达到88.57%。通过搜索对于分类有意义的特征,可以检测到PD在基因和脑功能图像方面的致病因素
总结
该论文还有一些可视化数据和方法的对比部分我没有写出来,不过总体内容基本上都有。没有数据,没有代码,也算是了解学习一下。
[1]Xia-an Bi, Xi Hu, Yiming Xie, Hao Wu, A novel CERNNE approach for pre-dicting Parkinson’s Disease-associated genes and brain regions based on multimodal imaging genet-ics data, Medical Image Analysis (2020),
doi: https://doi.org/10.1016/j.media.2020.101830