宏基因组拼接方法

de novo定义：from the beginning（从头拼接）, no reference genome guided（无参考基因组）

三类de novo基因拼接的计算方法：

1. Greedy algorithm：对于含重复区的序列拼接效果不好

Shortest common string (SCS)：最短的、包含原序列S中所有的k-mer的序列

但是Greedy algorithm为追求最短的序列或者最多的重叠，出现了“吃掉”重复区间的问题。

2. Overlap Layout Consensus：耗时长，用于Sanger测序

3. de Bruijn：速度快、准确度高，目前NGS多采用此方法

将每条序列拆成长度为k个碱基的序列（k-mer），每个k-mer之间的重叠部分overlap=k-1

要点：线性结构，欧拉路径，特殊结构的处理

序列拼接工具如Velvet，SPAdes、IDBA-UD等，均采用de Bruijn算法

部分结构可简化和处理掉，例如去头和气泡（remove tips and bubbles）

E coli基因组的de Bruijn图和测序错误率的关系

测序深度和覆盖度：

测序深度(depth)：测序得到的总碱基数与待测基因组大小的比值。例如E. coli基因组大小为4Mbp，测序得到40Mbp的reads，则测序深度为10X。

Coverage>80%可形成“基因草图(draft genome)”

Draft genome需要30X的测序深度

举例：

1. 测序得到的Reads数：Abundant>moderately>rare

2. 测序深度或覆盖率（read depth or coverage）：Abundant>moderately>rare

3. 根据所需测序深度决定测序通量：如果要得到C的基因草图（需要depth>=30X）,则测序通量（总碱基数）=rare的基因组碱基数*30/rare%

scaffold=contigs+gaps（缺口）

Scaffold组装主要靠

与已知物种的基因组进行序列比对

paired read测序结果也提供了大量gap filling的信息

依然有大量缺口(gaps)