RNA-seq、FPKM和Cuffdiff
RNA-seq
RNA-seq即转录组测序技术,是将细胞内mRNA,nonconding-RNA等RNA或其中一些提取出来利用高通量测序技术进行测序和分析的技术,RNA-seq分析的主要目的是分析RNA对应基因的表达量。
RNA-seq的主要步骤如下:分离RNA——将RNA打断成小片段——RNA反转录为DNA,此后测序手段同DNA测序。
更详细步骤可参考:
https://www.jianshu.com/p/d09e624efcab
前文提到RNA-seq的主要目的是得到RNA对应基因的表达丰度,为实现此目标需要将测序得到reads比对到基因组上,简单来说,比对到某基因的reads数量大,即说明该基因转录出的RNA数量高,即表达量可用以下公式衡量
但稍加思考可知此公式存在严重问题,不能准确反映不同基因之间的表达差异,只能作为差异表达的定性考量。考虑下面的一种简单情形:
在基因组中存在两个发生转录的基因,我们通过RNA-seq考察其表达差异。两个基因的长度分别为300bp和150bp,如下图所示假设每个基因发生一次转录,分别转录出一个300碱基和一个150碱基的RNA。将细胞内的RNA提取出来,打断并建库准备进行测序。假设建库后每个DNA链长为150bp,则gene1转录出的RNA被打断为两个150碱基长度的片段,如下图所示。
建库后进行测序,测序得到的reads长度为150碱基。此后需将测得的reads(共三个)比对到基因组中,从中得到每个基因的表达量,整个过程如下图所示
测序结果中比对到gene1上的reads数为2,比对到gene2上的reads数为1。根据比对的结果,按照上述基因表达量计算公式可得
gene | gene expression |
---|---|
gene1 | 2/3 |
gene2 | 1/3 |
而根据情形设定,gene1和gene2都只发生一次转录,可以发现,按照上述公式计算所得基因表达量与实际具有较大偏差。
FPKM
通过上述一个极端简化的转录组分析实例可知,仅依靠map到基因组上的reads数来判定某基因的表达量具有很大偏差,这种偏差是由于转录组在测序前被打断成小片段所致,从而导致长度较大的片段在进行map时被更多片段对应所引起的。为了消除这种影响,在转录组分析时使用FPKM来衡量的不同基因表达量。
定义:Fragments Per Kilobase of exon model per Million mapped fragments,每千个碱基的转录每百万映射读取的fragments,表达式如下
此处外显子长度以kb为单位。容易发现FPKM的计算方式与式的主要差别在于在分母中引入了外显子长度以实现标准化,从而消除外显子长度不同的差异。