illumina测序的一些注意事项

在二代测序领域,illumina测序平台以其核心的三项技术(分别是碱基末端可逆修饰、桥式PCR和边合成变测序策略),独步天下。充分发挥了其碱基读取精确、通量提高、测序长度也稳步提高至双末端各300bp。但是,任何测序技术面对各种测序需求总是会有些许不足,大白话说就是:没有哪项技术可以解决全部的问题。那么,illumina测序有哪些问题是需要注意的呢?我们就来聊聊这个话题。
问题一、测序过程中必须碱基平衡
所谓碱基平衡,是指,测序芯片上完成成簇反应之后,一定面积内的不同分子簇,各个位置的碱基A、T、G、C分布均匀。这样才可以较好的完成信号转换。如若不然,那么对于碱基的判读就会出现错误,从而导致测序质量值大幅度下降。
反应在测序文库上,就是一次测序反应中,应该尽量多添加诸如基因组DNA文库,RNA转录组文库,而少掺入一些扩增子文库。这里的扩增子文库是指类似16s/18s/ITS可变区文库。如果实在凑不齐文库,那么就应该认为掺入大量的平衡碱基文库。包括phix文库、基因组文库等。同时,也可以尽量多掺入不同类型的扩增子文库。或者,对扩增子文库的barcode序列做一些错位(spacer)设计,增加碱基的平衡性。
illumina测序的一些注意事项
上图即是平衡文库和非平衡文库测序数据差别,其中碱基不平衡文库曲线非常糟糕,数据质量会很差。
问题二、读取长度受限
尽管目前illumina的测序读长已经达到双末端300bp,但是想要进一步提高测序读长,还是非常困难的。主要的原因在于,第一,扩增测序的酶活性需要进一步提高太难。目前Illumina MiSeq测序,完成一次测序,需要耗时超过60小时,加上文库混合时间,还会超出这个时间。60小时内能维持酶的活性已经非常不错了,再要提高就比较难。第二,基于单次只测一个碱基的边合成边测序原理,要求对各个分子簇的反应时间要求一致。也就是各个分子簇必须同时进行反应。理想状态当然是如此,但是实际PCR反应过程中,各个分子的反应时间还是不尽相同的。因此,会产生有的分子簇内的分子反应的快,有的慢的情况(这种现象被称作phasing,一般和酶活有关)。导致的结果就是,一个分子簇内的信号颜色不一样。那么越到测序后期,其碱基判读就越不准确。因此想要提升读长,illumina的增长潜力非常有限。解决问题的最终办法还是要靠长度长的三代测序技术。
illumina测序的一些注意事项
图片来自网络。
上图较好的反映了phasing现象
问题三、文库长度受限
文库长度的意思是指,含两侧测序接头和插入目标片段,整个文库的长度范围不能过宽,一般建议在250bp-450bp之间比较好,超过600bp以上就会造成一些不利影响。主要是短片段和长片段一起测序的时候,短片段的扩增效率一般都高于长片段的,因此更容易测到序列,长一些的文库就不容易测到序列,导致数据产出有偏差。另一个原因是,如果文库片段过短的话,该短片段测序到后期,就是要测接头序列了,有的时候连接头序列都测完了,那就没有信号了,后续会读取一些假信号,降低测序质量值。

了解了上述问题之后,可以对我们日常测序进行指导,规避一些不必要的麻烦,提高测序文库质量,同时提高测序质量及效率。

参考资料:
https://support.illumina.com/bulletins/2016/07/what-is-nucleotide-diversity-and-why-is-it-important-.html