RNA-seq、FPKM和Cuffdiff

RNA-seq

RNA-seq即转录组测序技术,是将细胞内mRNA,nonconding-RNA等RNA或其中一些提取出来利用高通量测序技术进行测序和分析的技术,RNA-seq分析的主要目的是分析RNA对应基因的表达量。

RNA-seq的主要步骤如下:分离RNA——将RNA打断成小片段——RNA反转录为DNA,此后测序手段同DNA测序。
更详细步骤可参考:
https://www.jianshu.com/p/d09e624efcab

前文提到RNA-seq的主要目的是得到RNA对应基因的表达丰度,为实现此目标需要将测序得到reads比对到基因组上,简单来说,比对到某基因的reads数量大,即说明该基因转录出的RNA数量高,即表达量可用以下公式衡量
gene_expression=ExonMappedReadsTotalMappedReads(1)gene\_expression = \frac{ExonMappedReads}{TotalMappedReads} \tag{1}

但稍加思考可知此公式存在严重问题,不能准确反映不同基因之间的表达差异,只能作为差异表达的定性考量。考虑下面的一种简单情形:

在基因组中存在两个发生转录的基因,我们通过RNA-seq考察其表达差异。两个基因的长度分别为300bp和150bp,如下图所示RNA-seq、FPKM和Cuffdiff假设每个基因发生一次转录,分别转录出一个300碱基和一个150碱基的RNA。将细胞内的RNA提取出来,打断并建库准备进行测序。假设建库后每个DNA链长为150bp,则gene1转录出的RNA被打断为两个150碱基长度的片段,如下图所示。
RNA-seq、FPKM和Cuffdiff

建库后进行测序,测序得到的reads长度为150碱基。此后需将测得的reads(共三个)比对到基因组中,从中得到每个基因的表达量,整个过程如下图所示RNA-seq、FPKM和Cuffdiff
测序结果中比对到gene1上的reads数为2,比对到gene2上的reads数为1。根据比对的结果,按照上述基因表达量计算公式可得

gene gene expression
gene1 2/3
gene2 1/3

而根据情形设定,gene1和gene2都只发生一次转录,可以发现,按照上述公式计算所得基因表达量与实际具有较大偏差。

FPKM

通过上述一个极端简化的转录组分析实例可知,仅依靠map到基因组上的reads数来判定某基因的表达量具有很大偏差,这种偏差是由于转录组在测序前被打断成小片段所致,从而导致长度较大的片段在进行map时被更多片段对应所引起的。为了消除这种影响,在转录组分析时使用FPKM来衡量的不同基因表达量。

定义:Fragments Per Kilobase of exon model per Million mapped fragments,每千个碱基的转录每百万映射读取的fragments,表达式如下

gene_expression=ExonMappedReads×109TotalMappedReads×ExonLength(2)gene\_expression = \frac{ExonMappedReads\times10^9}{TotalMappedReads\times ExonLength} \tag{2}

此处外显子长度以kb为单位。容易发现FPKM的计算方式与(1)(1)式的主要差别在于在分母中引入了外显子长度以实现标准化,从而消除外显子长度不同的差异。

Cuffdiff