dbNSFP:非同义突变功能注释数据库

欢迎关注”生信修炼手册”!

在对SNV位点进行注释时,往往需要综合采用多个数据库的注释结果,为了方便肿瘤研究人员,dbNSFP对人类基因组上的突变位点进行了丰富全面的功能注释,其目的是提供一站式服务,通过这一个数据库就可以完成突变位点的功能注释,文章链接如下

http://onlinelibrary.wiley.com/doi/10.1002/humu.22932/abstract

该数据库网址如下

https://sites.google.com/site/jpopgen/dbNSFP

最新版本为v4.0, 收录了来自外显子测序的84,013,490个SNV位点,包含以下3种类型

  1. non-synonymouse SNVs(nsSNVs),包含stop-gain, stop-loss和missense SNVs

  2. splicing-site SNVs(ssSNVs)

  3. splicing consensus regions SNVs(scSNVs),  指的是发生在剪切位点附近的SNV, 5’剪切位点上游3bp到下游8bp和3’剪切位点上游12bp到下游2bp范围内的SNV, 这些SNV来自于dbscSNV数据库

该数据库中采用了多种软件和算法对SNV的功能和保守性进行打分,用到的软件示意如下

dbNSFP:非同义突变功能注释数据库

为了对这些不同得分系统的效能有一个更加清晰的认识,基于模拟数据进一步分析了这些不同指标的预测效果,模拟数据集I的ROC曲线如下

dbNSFP:非同义突变功能注释数据库

可以看到VEST3的效果最佳,MetaSVM和MetaLR这两个打分系统的AUC也在0.9以上,模拟测试集II的ROC曲线如下

dbNSFP:非同义突变功能注释数据库

最好的两个为MetaLR和MetaSVM, 再进一步对这些打分系统进行聚类,结果示意如下

dbNSFP:非同义突变功能注释数据库

聚为一类的打分系统其作用较为接近,可以看到这些打分系统分为了4大类别,如果觉得指标太多无从下手,可以从功能相近的指标中挑出一个作为代表,可以大大减少筛选时的复杂度。

除了功能和保守性打分外,该数据库也提供了频率和基因注释,比如常见的1000G, ESP, Exac, gnomAD等频率数据库和HCNC, GO, kegg pathway等基因注释数据库中的信息。

官网只提供了下载功能,如果需要查看该数据库中的数据,可以通过以下网站

https://myvariant.info

如果想利用该数据库对自己的SNV进行注释,可以采用官方推荐的WGSA软件,官网如下

https://sites.google.com/site/jpopgen/wgsa

需要注意的是,该数据库需要科学上网才可以得到。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

dbNSFP:非同义突变功能注释数据库