LIDC-IDRI肺结节数据库详解
LIDC-IDRI肺结节数据库详解
LIDC-IDRI (The Lung Image Database Consortium),该数据集由胸部医学图像文件(如CT、X光片)和对应的诊断结果病变标注组成。该数据是由美国国家癌症研究所(National Cancer Institute)发起收集的,目的是为了研究高危人群早期癌症检测。
该数据集中,共收录了1018个研究实例。对于每个实例中的图像,都由4位经验丰富的胸部放射科医师进行两阶段的诊断标注。在第一阶段,每位医师分别独立诊断并标注病患位置,其中会标注三中类别:1) >=3mm的结节,2) <3mm的结节,3) >=3mm的非结节(官网描述: “nodule > or =3 mm”, “nodule < 3 mm",="" and="" “non-nodule=”"> or =3 mm”,详见 Summary)。在随后的第二阶段中,各位医师都分别独立的复审其他三位医师的标注,并给出自己最终的诊断结果。这样的两阶段标注可以在避免forced consensus的前提下,尽可能完整的标注所有结果。
Collection Statistics | updated 3/21/2012 |
---|---|
数据大小 | 124G |
图像类型 | CT (computed tomography), 243,958 张 DX (digital radiography) CR (computed radiography) |
图片数 | 244,527 |
患者数 | 1010 |
系列数 (Number of Series) | 1,018 CT 290 CR/DX |
研究数 (Number of Studies) | 1038 |
文件结构
目前测试一共1012个病例数据,每个病例文件夹对应结构:
LIDC-IDRI-XXXX / Study Instance UID / Series Instance UID / *.dcm,*.xml
XXXX :从0000到1012;
Study Instance UID :每个病例对应的检查实例号;
Series Instance UID :不同检查对应的序列实例号;
*.dcm ,*.xml :分别对应于每一张dcm切片和xml标注文件。
图像矩阵像素信息
模块处理的数据为slicer* rows* cols大小的三维矩阵D。
eg: 对于病例LIDC-IDRI-0001,即为133*512*512的矩阵,一共133张切片,每张大小512*512,依次按顺序存入二进制文件,每个像素大小为2字节(对应short类型)。
XML标注信息说明
XML解析过程:
本文内容参考博客:LIDC-IDRI肺结节Dicom数据集解析与总结