论文笔记:Identifying Lung Cancer Risk Factors in the Elderly Using Deep Neural Network - Chen, Wu
论文笔记:Identifying Lung Cancer Risk Factors in the Elderly Using Deep Neural Network - Chen, Wu
原文链接 Identifying Lung Cancer Risk Factors in the Elderly Using Deep Neural Network
个人投稿,只为记录,图文来自原论文,如有侵权请告知,马上删除。(求生欲爆棚)
-
Abstract部分
Objective: 确定老年人肺癌发病的关键危险因素,使用深度学习方法来定量分析这些危险因素对肺癌发病影响程度。
Methods: 提取已有数据进行预处理。对样本分组,在分组人群中训练深度神经网络模型。之后提取了诱发老年人肺癌的危险因素,并使用模型进行定量分析。 -
Data Source
BRFSS - 美国疾病控制与预防中心的开放访问源。BRFSS从美国居民收集有关其健康相关风险行为,慢性健康状况,预防服务使用等方面的调查数据。
文章使用1996年至2017年间来自美国50个州的235,673名成年人的肺癌行为健康风险数据。
数据筛选过程:
BRFSS问卷调查包含一些已有的调查问题,下表只展示了其中16个相关问题。
从美国环境保护署的开放访问网站中得到环境风险因素:空气污染物和饮用水。根据日期将环境数据与BRFSS的风险因素相关联,得到最终的数据源。 -
论文流程
全文共有四个部分:
Data integration: 整合了有关医疗人口统计学、吸烟习惯、疾病史、辐射暴露、行为风险和其他等方面的数据;
Data balancing and preprocessing: 由于肺癌病例数远低于非肺癌病例,因此需要平衡数据,再对平衡后的数据进行预处理;
Deep learning model training: 利用分组后的数据训练DNN模型,通过模型提取了各组数据的危险因素;
Risk factor quantitative analysis: 对老年患者的各危险因素的影响程度进行定量分析。
Data integration:
医学人口统计学因素:年龄、性别、体重指数和教育程度;
吸烟习惯因素包括吸烟强度、开始吸烟的年龄、吸烟频率、戒烟时间、 使用电子烟、二手烟暴露以及其他吸烟习惯;
疾病史:COPD史、哮喘史、个人癌症史和癌症家族史;
放射线照射:胸部或胸部的放射治疗、CT或CAT医学影像学检查以及职业性接触石棉,ra和砷的照射;
还考虑了饮食和运动习惯以及其他行为危险因素。
Data balancing and preprocessing:
肺癌与非肺癌病例的比例约为1:115,肺癌占比太小,数据不平衡,使用synthetic minority oversampling technique(SMOTE)解决不平衡问题。SMOTE基于K最近邻算法来模拟少数样本。(以后再具体写嘿嘿)
数据有残缺值等其他问题。对数据进行预处理,对残缺值进行填充,对噪声数据平滑处理。使用multiple imputation多重插补填补缺失值。利用奇异值分解以减少预处理阶段产生的噪声。
将预处理后的数据分为4组: 年龄在65岁以上的人(年龄 ≥ 65岁),65岁及以上女性,65岁以上男性,以及所有人群。
Deep learning model training:
首先将数据格式转换为HDF5文件,使用Caffe框架按顺序训练基于分组的DNN模型。
Caffe:用于快速特征嵌入的卷积体系结果的软件。2017年4月Facebook推出Caffe2.0, 2018年3月,Caffe2.0被合并到Pytorch。
DNN模型构建及训练步骤:首先使用Caffe框架按顺序训练四个组的DNN模型,输入数据通过input layer,计算hidden layer中不同危险因素的权重,通过output layer获得关键危险因素。之后根据分组DNN模型提取了不同组的危险因素。
DNN架构:
1个输入层,3个隐藏层,1个输出层,层与层之前全连接;
**函数选取ReLU函数:
输入节点和输出节点的数量取决于输入和输出特征的数量,隐藏层的数量由数据大小确定。本文设定输入层节点数:30; 输出层节点数:9; 隐含层节点数:3;(也就是输入的每个样本的特征数为30, 输出的特征数为9)
准确性检验:10-fold 交叉验证,即将数据分为10部分。将它们轮换以将其中9个用作训练集 ,余下的1个用作模型训练的测试集。
Risk factor quantitative analysis:
首先对输出结果进行权重归一化,使得每个权重都落在0和1之间,
归一化后的权重代表了危险因素对肺癌发生的影响程度。
- Result
上图显示了通过DNN模型获得的4个分组中危险因素的权重。
后面根据结果进行了各种比较分析balabalabala。
我的Question 位置:
-
Q1:DNN的output node只有9个,为什么最后的结果图有18个指标?
-
Q2:训练集的响应变量即对应output layer的输出是什么?
未来要是想出答案再来补~