DNA 测序技术
DNA 测序技术用以分析特定DNA 片段的碱基序列(腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤(G))的排列方式.
图2 DNA 测序及拼接过程示意图
Fig. 2 Diagram of DNA sequencing and assembly
测序完成后的第一步也是最重要的一步就是根据读序拼接回贴成完整的序列,其测序与拼接过程如图2 所示.
拼接算法用于将测出的读序拼接成完整的染色体序列(chromosome sequence)、转录本序列(transcript sequence)或因为测序不完整而形成的支架序列(scaffolds),最终形成基因组、转录组序列或其他功能序列. 所有的拼接算法基本上是先将读序根据重叠关系连接成“叠连群”(contigs),然后再将叠连群根据配对(pair-end)读序和其他信息形成有序集合来构建更长的支架序列.
第三代测序纠错算法
第三代测序技术解决高错误率策略主要有2 个:
(1)利用来自另一个测序平台的低错误率的短读序,在保证足够的覆盖倍数下,纠正长读序中的错误,该类方法称为混合法;(2)利用长读序的错误分布比较均匀的事实,在保证长读序足够的覆盖率下,利用长读序自身的信息进行纠错,该类方法称为长读序自纠错方法.
目前,针对PacBio 长读序的纠错算法有:
(1)自纠错方法:DAGCon[67]、PBcR[64]、LoRMA[68];
(2)基于短读序
的纠错方法:PBcR[64]、LSC[69]、PacBioToCA[70]、proovread[71]、ECTools[72]、Cerulean[73]、LoRDEC[74]、Jabba[75]. DAGCon 的主要思想是通过长读序间的多对多比对进行自身纠错.
PBcR 的主要思想是通过长读序间的局部比对构建多重序列比对,然后生成共有序列来进行纠错. PBcR的最新版本既支持长读序的自纠错,也支持基于短读序的纠错. LSC 的主要思想是先将长读序中相同的碱基压缩,然后再将短读序比对到长读序,利用比对结果对长读序进行纠错. PacBioToCA 直接将短读序比对到长读序上,利用比对结果对长读序进行纠错.