LIDC-IDRI肺结节数据库详解

LIDC-IDRI肺结节数据库详解
LIDC-IDRI (The Lung Image Database Consortium),该数据集由胸部医学图像文件(如CT、X光片)和对应的诊断结果病变标注组成。该数据是由美国国家癌症研究所(National Cancer Institute)发起收集的,目的是为了研究高危人群早期癌症检测。

该数据集中,共收录了1018个研究实例。对于每个实例中的图像,都由4位经验丰富的胸部放射科医师进行两阶段的诊断标注。在第一阶段,每位医师分别独立诊断并标注病患位置,其中会标注三中类别:1) >=3mm的结节,2) <3mm的结节,3) >=3mm的非结节(官网描述: “nodule > or =3 mm”, “nodule < 3 mm",="" and="" “non-nodule=”"> or =3 mm”,详见 Summary)。在随后的第二阶段中,各位医师都分别独立的复审其他三位医师的标注,并给出自己最终的诊断结果。这样的两阶段标注可以在避免forced consensus的前提下,尽可能完整的标注所有结果。

Collection Statistics updated 3/21/2012
数据大小 124G
图像类型 CT (computed tomography), 243,958 张
DX (digital radiography)
CR (computed radiography)
图片数 244,527
患者数 1010
系列数 (Number of Series) 1,018 CT
290 CR/DX
研究数 (Number of Studies) 1038

文件结构
目前测试一共1012个病例数据,每个病例文件夹对应结构:
LIDC-IDRI-XXXX / Study Instance UID / Series Instance UID / *.dcm,*.xml
XXXX :从0000到1012;
Study Instance UID :每个病例对应的检查实例号;
Series Instance UID :不同检查对应的序列实例号;
*.dcm ,*.xml :分别对应于每一张dcm切片和xml标注文件。

图像矩阵像素信息
模块处理的数据为slicer* rows* cols大小的三维矩阵D。
eg: 对于病例LIDC-IDRI-0001,即为133*512*512的矩阵,一共133张切片,每张大小512*512,依次按顺序存入二进制文件,每个像素大小为2字节(对应short类型)。

XML标注信息说明
LIDC-IDRI肺结节数据库详解
XML解析过程:
LIDC-IDRI肺结节数据库详解
本文内容参考博客:LIDC-IDRI肺结节Dicom数据集解析与总结