变异检测软件Varscan1 文献分享
VarScan: variant detection in massively parallel sequencing of individual and pooled samples
Published by Bioinformatics in 2009 华盛顿大学医学院基因组中心
源码:http://genome.wustl.edu/tools/cancer-genomics
VarScan:对单个样本或者多个样本的大规模平行测序数据进行变异检测
摘要: 2009年是NGS测序开始出现的几年,这个时候应该也没有非常普遍的变异检测软件。大规模平行测序为DNA变异检测提供了可能,特别是疾病的变异检测。Roche/454,、Illumina/Solexa以及其它平台的出现促进了NGS数据比对算法的开发,但是变异检测软件的开发面临挑战,各种变异检测软件只能用于单一平台,不能在多平台上使用。本文介绍了一种开源且兼容多种比对软件的变异检测工具Varscan,其在检测SNP和Indel方面表现出高敏感性和特异度,其在单个样本的Roche/454测序和多个样本的Illumina/Solexa测序种都能使用。Varscan是以Perl 包的形式执行,且可在Linux/UNIX、MS Windows和Mac OSX多种操作系统上使用。
背景介绍部分:大规模平行测序比传统基于毛细管的测序方法有较高的测序深度且较短的测序时间,许多个人基因组进行了测序甚至1000人基因组计划扩展,测序物种也越来越广泛。应用高通量测序技术对对人类基因组靶向区域进行测序,已经称为很多人类疾病研究的兴趣点。超高通量测序不仅使得多样本测序称为可能,也使得稀有突变检测和多样本突变频率的准确检测测得以实现。将大量的测序数据和短read比对上基因组是一个很大的挑战,许多比对算法已经出现,如Maq、Newbler(很强大,但仅仅适用于Roche/454)和Bowtie等等,都仅局限于某一平台或者某一比对软件。SHORE流程能够找SNP和indel,但是也仅仅限于Illumina/Solexa平台。本研究开发了一款检测变异的软件Varscan,可检测SNP和Indel,并可兼容多种比对工具(BLAT/Newbler/cross_match/Bowtie and Novoalign),即可检测单个样本也可检测多个pool样本的变异。
方法部分:
Varscan是对NGS数据比对结果bam文件进行变异检测的软件,其首先会对比对结果进行打分排序并去除低一致性或者多比对/模糊比对reads,然后使用每条read的最好比对扫描序列变化,组后结合所有reads扫描结果得到每个位点唯一的SNP和indel。对于每个变异Varscan都给出了覆盖深度、突变支持reads数、平均碱基质量、每个等位基因的链偏好,而这些参数阈值都可以通过选项设置。
Varscan是以perl程序和内置C方式执行,文献说相关源码在:
http://genome.wustl.edu/tools/cancer-genomics #网页仍存在,但是内容却无关
https://github.com/dkoboldt/varscan和https://sourceforge.net/projects/varscan/files/ 都没有Varscan1源码了。
结果部分:
进行靶向重测序测数据产出如下:
Roche 454 XLR平台:每个样本测了70X,BLAT比对Hs36,去掉比对质量小于50、低于95%一致性或者多竞争比对的reads,SNP需要大于10X且25%的reads支持,1423s/sample,
Illumina GAII平台:每个样本测了125X,Bowtie比对Hs36,使用-m设置返回最好比对,1625s/lane,SNP检测方面每个位点pool大于100X。
SNP检测结果如下:
Roche 454 XLR平台:359个SNP, 215 (59.78%)在dbSNP中,
Illumina GAII平台:359个SNP,345个(97.21%)在dbSNP中,
和其它工具比较:
Newbler:鉴定454中22.28的SNP
Maq:鉴定illumina中94.71%的 SNP。
比较共有的344个SNP:
两个平台SNP频率相关性为0.962,但是高频SNP的相关性略低,这里作者解释可能是高频SNP的reads比对处于弱势
Indel方面:
454有超过200个Indel,base在1~97bp。挑出77个1~5bp高置信度Indel, 在illumina中筛选比对跨越这些位点的reads使用Novoalign单末端比对,然后用Varscan检测Indel,46 (59.74%)的Indel在illumina数据中也检测到了。
总结:454 97%的特异性,illumina 93%的灵敏度,illumina中~1%的 突变也有83%的灵敏度,灵敏度和特异性都依赖于比对工具的准确性,因此Varscan给出了不同比对工具的推荐参数。
后面会继续分享Varscan2的文献,敬请等待!