TCGA数据下载教程:使用官方gdc-client软件下载
前言
本教程涉及内容:
- TCGA网页数据下载,检索方式
- gdc-client软件安装和配置
- 使用gdc-client下载TCGA数据
####[补充]
正文开始
本教程使用原生态的TCGA官方数据下载方式,比使用第三方的工具具有数据更新快,真实的特点,当然如果觉得麻烦可以使用第三方的一些工具,单对于想要真正了解TCGA数据库的人,还是使用原生态的TCGA方式。
TCGA改版后,下载方式变得大为不同,数据都整合在GDC(Genomic Data Commons)的DATA PORTAL中。
TCGA官网:https://cancergenome.nih.gov/
TCGA数据下载网址:https://portal.gdc.cancer.gov/
Data Transfer Tool网址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
如果下载慢,我这提供一份下载好的连接:
https://github.com/chenwi/TCGAD/blob/master/gdc-client_v1.3.0_Windows_x64.zip
TCGA官网数据检索
如果在官网下,需要点击右边的Launch Data Portal,也就是上面TCGA数据下载的网址
进入到数据下载页面(可以直接点击上面TCGA数据下载网址)后,看到的目前版本如下,目前已有40个project,32555个case。
我以白血病(AML)为例,下载与白血病相关的miRNA数据。
首先点击上图的Repository
进入数据检索界面,你看到的界面如下:
在 File
栏目下,选择Experiment Strategy
的miRNA-Seq
还有Data Type
的miRNA Expression Quantification
;然后在Case
栏目下选择Primary Site
中的Blood
和Bone Marrow
,和Disease Type
的Acute Myeloid Leukemia
,这时候你会看到界面变成下面这样了:
因为一般只能下载open数据,所有,可以再上面图中Access Level
的地方点击一下 ,就会得到知识open的数据了(不点击也没关系,反正后期只会下载open的数据)
这次选择下载的是miRNA-Seq数据,上图显示共有265个case,301个文件,为什么会比case数多呢,说明一些case不止对应1个miRNA-Seq样本的文件,有些是重复。所有数据一共15.14MB,也不大,可以直接在网页下载,但是,本教程是讲解使用官方API下载,数据小更好演示,下面具体讲解使用gdc-client下载数据。(TCGA数据库在数据下载有规定:让Cart文件夹大于50M时,只能通过Data Transfer Tool工具进行下载。所以我这次要使用Data Transfer Tool工具来下载数据。)
首先点击上图中Manifest
这时候会下载一个包含所有文件名的小txt文件,是后面下载TCGA数据所必须准备的。我下载保存到下面文件夹了:
安装配置 Data Transfer Tool
如何安装Data Transfer Tool,也就是gdc-client这个接口软件呢?
要安装Data Transfer Tool,需要到下载页面下载该工具。
Data Transfer Tool网址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
进去界面后,找到下图的地方,并选择windows环境下的工具,也就是打钩的那个。下载后解压缩即可使用。至于怎么用,我刚开始看到是.exe文件,但是这个软件是需要用命令行来使用的。
我把该工具解压到下面这个文件夹,根据图标,说明这个软件是用Python写的,然后使用Pyinstaller打包的。!!!!!!!!!!!!!!!**注意**!!!!!!!!!!!!!!!!!
该软件不能解压到含有中文名的文件夹下,否则会报错,不能使用!!!
具体使用:打开CMD命令行窗口,输入-h命令,可以看软件是否能使用。
把gdc-client加入环境变量
有没有发现我的这个命令很长?那是因为,我还没把这个软件加入环境变量,如果以后想在任何一个路劲简单使用gdc-client这个命令,那就需要把这个软件的路径加到环境变量。就是在Path加入刚刚软件所在的路径即可”。具体操作如下:
打开电脑控制面板——》系统和安全——》系统——》高级系统设置——》环境变量——》Path——》“加入你的gdc-client所在路径” ,然后应用保存。
- 打开电脑控制面板
- 系统和安全
- 系统
- 高级系统设置
- 环境变量
- Path
上面配置都完成后,看下图,现在简单输入gdc-client -h
就行了。
使用gdc-client下载TCGA数据
下载方式很简单,还记得上文中下载的Manifest文件吧,然后在windows下打开cmd,并在其中输入下载命令:
gdc-client download -m gdc_manifest.2018-07-02.txt
然后就是慢慢下载了,如果中间有报错断了,一般就是网络不好的原因,重新下载或者换个时间段就行了。
最后就下载完了,一共301个文件,命令行界面和文件夹界面如下所示:
此教程结束。
其他使用python自定义脚本下载,以及将多个文件合并到一起的教程,请参考我的其他博文。