转录组分析数据准备
转录组分析数据准备
在这之前,我们要明白,进行转录组分析,我们需要那些文件
- 测序数据
- 样本信息表
- 基因组序列(genome.fasta)
- 基因注释文件(genes.gtf)
- 蛋白序列(proteins.fasta)
其中,测序数据可以自己去公司测序,或在公开的资源网站进行下载。
样本信息表,是自己根据测序数据进行编辑。至于基因组序列,基因注释文件和蛋白序列文件,则需要自己在网上下载,今天我们就介绍怎么样从ensembl上面下载这三组数据,选择ensembl的是因为它更新快,而且数据可靠。
数据的下载
首先,我们打开浏览器输入ensembl,进入它的官网
可以在search栏里面查找自己感兴趣的物种,或者直接点击用的比较多的人,小鼠或者斑马鱼的数据,我们就以人为例,来进行下载
基因组序列文件
我们先点击Genome assembly: GRCh38.p13下面的dowload sequence(这个时候,千万千万不要处于翻墙状态,不然会打不开ftp网址)
可以看到,这里面有许多基因组序列文件,而我们做转录组需要的是primary_assembly.fa.gz这个序列文件,直接右键复制链接地址,在linux下使用wget下载就行了
基因注释文件
返回刚刚的界面,点击Gene annotation里面的Download GTF
我们使用的是Homo_sapiens/GRCH38.99.gtf.gz
同样的我们复制下载链接,在linux里面用wget下载就行了
在这里我们需要注意的是,在有gtf和gff文件的时候,我们优先使用gtf文件,只有gff文件时,我们要把gff文件改成gtf文件
蛋白序列文件
还是返回刚才的界面,点击Download FASTA
进入之后,我们点击pep/文件夹,这个文件是存放蛋白序列的文件夹
然后我们用同样的方法下载Homo_sapiens/GRCH38.99.pep.all.fa.gz就行了
这样,我们做转录组分析所需要的数据就全部准备好啦。