2020.9.12丨变异检测的原理&应用方向
分类:
文章
•
2024-11-22 18:04:57
- 变异检测的原理&技术要点
- 定义:变异检测是指 通过测序 技术对某一物种个体或群体的基因组进行测序及差异分析,获得单核苷酸多态性SNP )、插入缺失 InDel )、结构变异( SV )、拷贝数变异CNV )等大量的遗传变异信息用于开发分子标记建立遗传多态性数据库,为后续揭示进化关系、挖掘功能基因等奠定数据基础。
- 按照片段大小分类:
- 单碱基:SNP
- SNP (单核苷酸多态性)主要是指在基因组水平上由单个核苷酸的变异所引起的 DNA 序列多态性,包括单个碱基的转换、颠换等。利用 GATK软件对群体数据进行变异检测及过滤,进一步 过滤 SNP 的 reads 支持数小于 4 的位点,得到高可信度的 SNP
- 1-50bp:InDel
- InDel 是指基因组中小片段的插入和缺失序列,其长度在 1 50bp 之间。我们采用 GATK 软件进行个体 InDel 的检测。 Small InDel 变异一般比SNP 变异少,同样反映了样品与参考基因组之间的差异,并且编码区的 InDel 会引起移码突变,导致基因功能上的 变化。
- 50-1000bp:SV
- SV
- (结构变异)指基因组水平上大片段的插入、缺失、倒置、易位等序列。可利用 Lumpy, Manta, Delly 软件,基于 pair endreads 比对到参考基因组上面的关系及实际 insert size 大小检测样品与参考基因组间的插入( insertion INS )、缺失 deletionDEL )、倒置 inversion INV )、染色体内部迁移 intra chromosomal translocation ITX )、染色体间的迁移 interchromosomal translocation CTX 。
- 大于1000bp:CNV
- (copy number variations, CNVs 是属于基因组结构变异( structural variation ),根据大小可分为两个层次:显微水平microscopic )和亚显微水平 ( 。显微水平 的基因组结构变异主要是指显微镜下可见的染色体畸变 , 包括 整倍体或非整倍体、缺失、插入、倒位、易位、脆性位点等结构变 异。亚微水平的基因组结构变异是指 DNA 片 段 长 度 在 1Kb 3Mb 的基因组结构变异 , 包括缺失、插入、重复、重排、倒 位、 DNA 拷贝数目变化等,这些统称为 CNV (也称为拷贝数多态性 (copy number polymorphisms, CNPs )。
- 名词解释
- 测序深度 :测序得到的总碱基数与基因组大小的比值。
- 覆盖率: 指测序获得的序列占整个基因组的比例,与测序深度正相关。
- 比对率( mapping rate )):反映了样本测序数据与参考基因组的相似性 需要 70 %%,最好
- 二、三代变异检测简介&应用方向
- 简介
- 全基因组重测序(WGS )):对基因组序列已知的个体进行全基因组测序,并在个体或群体水平上进行差异性分析的方法。
- 优势:获得的基因组信息全面,高分文章青睐,循环使用性高
- 简化基因组测序:指用限制性内切酶对基因组进行简化,只对酶识别位点相关的 DNA 进行高通量测序。
- 1) 只能获得 SNP 等信息, SV 、 CNV 检测可靠性较低
- 2) 用酶切的片段进行测序,基因组覆盖度低,获得变异信息不全
- 3) 建库前需要进行酶切评估,建库分析结果,受酶切评估结果和基因组组装质量所限
- 4) 多数应用在影响因子 5 分以下的期刊,如 BMC 、 Plos one 等
- 检测数据量推荐:检测 SNP 5 10 × ;检测 InDel 10 15 × SV 15 20 × CNV 30 ×
- 检测分析流程
- 流程图
- 应用方向
- 基于二代测序检测到的SNP 位点,后续可分别做群体进化、 GWAS 、 BSA 、遗传图谱,具体的应用方向如下所示:
- 优势和短板
- 三代优势
- 无测序系统偏差
- Random errors wash out in final consensus 在最终的一致性序列中,去除了随机错误
- 二代短板
- 覆盖度不均一;G/C 或 A/T 富含区域是 重灾区 无法达到真正意义上的全
- 三代检测类型
- CLR与CSS
- 图示
- 两种测序模式对比
- CLR检测SV
- CLR检测SV数据量推荐
- 构建 CLR 文库, 15 30 × 测序深度时, SVs 检测准确度和检出率在 80 85%
- 图示
- CLR检测SV混样的可行性
- 图示
- CLR检测SV分析流程
- 图示

- HiFi变异检测SNP、InDex
- SNV检测 15 × 可检测到 99.5%的变异,至少需要 10 ×;
- InDel 17 × 可检测到与 NGS 相当的变异(90% );
- 文献参考


Accurate circular consensus long
read sequencing improves variant detection and assembly of a human genome 2019 Nature Biotechnology
- 总结
- 1.与 CLR 相比, HiFi 检测到的SV 边界更好,断点更明显;
- 2. CLR 变异一般用于检测 SV可以和二代数据联合起来;HiFi 可检测 SNP 、 InDel 、SV 等;
- 3. CLR 检测推荐测序深度 30 ×以上; HiFi 推荐 15 × 的测序深度。
- 思路一:有参考基因组
- CLR :长读长的优势,碱基准确度相对较差的劣势,建议三代数据检测并结合二代数据进行纠错
- CCS HiFi :较高的碱基准确度,可同时检测 SNP/ InDel /SV ,无需二代数据校准
- 可基于长读长对基因组补 gap ,获得更精确信息。
- 思路二:无参考基因组
- CCS HiFi :较高的碱基准确度,更有利于分型与重复区域的组装,更节省时间周期
- 组装完成后,基于所测二代和三代数据进行结构变异检测,提高数据利用率。
-