转录组分析数据准备

转录组分析数据准备

在这之前,我们要明白,进行转录组分析,我们需要那些文件

  1. 测序数据
  2. 样本信息表
  3. 基因组序列(genome.fasta)
  4. 基因注释文件(genes.gtf)
  5. 蛋白序列(proteins.fasta)
    其中,测序数据可以自己去公司测序,或在公开的资源网站进行下载。
    样本信息表,是自己根据测序数据进行编辑。至于基因组序列,基因注释文件和蛋白序列文件,则需要自己在网上下载,今天我们就介绍怎么样从ensembl上面下载这三组数据,选择ensembl的是因为它更新快,而且数据可靠。

数据的下载

首先,我们打开浏览器输入ensembl,进入它的官网
转录组分析数据准备
可以在search栏里面查找自己感兴趣的物种,或者直接点击用的比较多的人,小鼠或者斑马鱼的数据,我们就以人为例,来进行下载
转录组分析数据准备

基因组序列文件

我们先点击Genome assembly: GRCh38.p13下面的dowload sequence(这个时候,千万千万不要处于翻墙状态,不然会打不开ftp网址

转录组分析数据准备
可以看到,这里面有许多基因组序列文件,而我们做转录组需要的是primary_assembly.fa.gz这个序列文件,直接右键复制链接地址,在linux下使用wget下载就行了

基因注释文件

返回刚刚的界面,点击Gene annotation里面的Download GTF
转录组分析数据准备
我们使用的是Homo_sapiens/GRCH38.99.gtf.gz
同样的我们复制下载链接,在linux里面用wget下载就行了
在这里我们需要注意的是,在有gtf和gff文件的时候,我们优先使用gtf文件,只有gff文件时,我们要把gff文件改成gtf文件
转录组分析数据准备

蛋白序列文件

还是返回刚才的界面,点击Download FASTA
转录组分析数据准备
进入之后,我们点击pep/文件夹,这个文件是存放蛋白序列的文件夹
转录组分析数据准备
然后我们用同样的方法下载Homo_sapiens/GRCH38.99.pep.all.fa.gz就行了
转录组分析数据准备
这样,我们做转录组分析所需要的数据就全部准备好啦。