天然产物数据库综述:2020年从哪里找天然产物数据
引言
近十年,天然产物(NP)一直是科学界关注的焦点,并且对它们的研究兴趣也在不断增长。因此,近二十年来,各种以NP作为主题资源的数据库或数据集的数量迅速增加。德国Friedrich-Schiller大学的Maria Sorokina 和 Christoph Steinbeck教授研究发现自2000年建立的各种NP资源信息库有123种,但是有些数据库甚至是相对较新发布的已经不再可用,这导致了NP数据的巨大损失。在这123种信息库中,有98种仍可以通过某种方式访问,而只有50种是开放访问的。Sorokina和Steinbeck教授将这些公开数据库里的天然化合物汇编成COCONUT数据库,这是迄今为止最大的NP公开信息库,包含40万+非冗余的NP结构和少量注释。
天然产物(NPs)被广泛定义为由生物体产生的化学物质。而更精确的NP定义却不能达成共识:一些认为NP包括所有由代谢反应产生的小分子,另一些认为NP是次级或非必需的代谢产物。在本综述中,作者排除了参与主要或必需代谢(例如能量或合成代谢途径)的分子,并仅考虑由生物体产生的以完成更高级生物功能(如信号或防御)的分子,分子量小于1500 Da。但是,就生命科学中的大多数定义而言,主要代谢物和次要代谢物之间的界线非常狭窄,并取决于该分子进行分类的潜在用途。这种分类有必要使用专用NP数据库或对数据库的分子进行适当注释。
NP已经进化了数百万年,并拥有独特的化学多样性,因此导致了其生物学活性和类药物特性的多样性。因此,甚至在现代化学药理学兴起之前,NP就已经作为传统药物的成分使用了几个世纪,特别是作为草药的活性成分。如今,由于经济、信仰、药品获得困难等原因,一些传统的治疗方法(例如印度阿育吠陀,传统中药或非洲草药)仍然是世界上许多人的主要治疗选择。在现代药理学中,NP也已成为开发新的先导化合物和骨架的最重要资源之一。每周都有NP对各种人类和动物疾病治愈过程的积极作用的科学文章发表。抗生素和抗真菌剂的主要种类是从微生物中分离出的NP,用于治疗各种癌症,心血管疾病,糖尿病等的药物也通常是NP或其衍生物。例如,在1981年至2014年之间,超过50%的新开发药物都是由基于NP研发而来。在食品、化妆品和天然农药方面,NP及其衍生物也得到了积极的研究。对NP的日益增长的兴趣,也积极的引导各种NP资源库和数据的增长。对于一个全面而完整的开放性数据库而言,结构易检索以进行计算分析非常重要。例如,事先对已知的NP进行虚拟筛选可以选择最佳候选化合物,减少提取和纯化样品时间。
在文中,作者回顾了2000年后科学文献中共有的123种NP资源库。其中92种是开放的,但是只有50种包含分子结构。作者对后者进行重新整理汇编成COlleCtion of Open Natural prodUcTs(COCONUT)数据库,该数据库有411621个结构唯一的NP分子,可在Zenodo (https://doi.org/10.5281/zenod o.35477 18)上获得。
作者将这123个数据库分为商业数据库和开放数据库,并对开放数据库又进行了细分:
商业数据库:SciFinder、Reaxys、Dictionary of Natural products (DNP)、Dictionary of Marine Natural Products (DMNP)、Dictionary of Food Compounds、NaprAlert、National Institute of Standards and Technology-NIST(version 17)、MarinLit、AntiMarin、AntiBase、eBasis (Bioactive Substances in Food Information Systems)、Natural Product Discovery System (NADI)、ChemTCM、Natural Products Library (NPL)、Ayurveda dataset、Berdy’s Bioactive Natural Products Database。
开放数据库:
1、代谢物和化学物质数据库:ChEBI、ChEMBL、ChemSpider、PubChem、ChemBank、KEGG、MetaCyc、BRENDA database、Chemical Structure Lookup Service (CSLS)、BiGG;
2、用MS数据去重的数据库:MassBank of North America (MoNa) 、 European MassBank、Japanese MSSJ MassBank、METLIN、Human Metabolome Database (HMDB)、Yeast Metabolome Database(YMDB)、RIKEN MSn spectral database for phytochemicals(ReSpect)、Global Natural Products Social Molecular Networking(GNPS);
3、用NMR数据去重的数据库:NMRshiftDB、NMRdata、NAPROC-13、Spektraris NMR database;
4、天然产物的通用数据库:SuperNatural II、Universal Natural Products Database(UNPD)、ZINC、Natural Product Activity and Species Source Database(NPASS)、RIKEN Natural Products Encyclopedia (NPEdia)、3DMET、Chinese Natural Products Database (CNPD);
5、植物天然产物数据库:KNApSaCK、Collective Molecular Activities of Useful Plants(CMAUP)、TriForC、Alkamid database、Tea Metabolome Database (TMDB);
6、微生物天然产物数据库:StreptomeDB、Natural Products Atlas (NP Atlas)、ProCarDB、PAMDB、Lichen Database;
7、中药天然产物数据库:[email protected]、Chinese Ethnic Minority Traditional Drug Database (CEMTDD)、Chinese Traditional Medicinal Herbs Database (CHDD)、Comprehensive Herbal Medicine Information System for Cancer (CHMIS-C)、Encyclopaedia of Traditional Chinese Medicine(ETCM)、database of medicinal materials and chemical compounds in Northeast Asian TM (TM-MC)、Traditional Chinese Medicine Integrative Database (TCMID)、Traditional Chinese Medicine Systems Pharmacology database and analysis platform(TCMSP)、Yet Another Traditional Chinese Medicine Database (YaTCM)、IMPPAT、MedPServer、NeMedPlant、TIM、Phytochemica、Database of Indonesian Medicinal Plants、TIPdb、African Traditional Medicine (ATM)、AfroDB、AfroCancer 、AfroMalariaDB、Afrotryp、Cameroon Medicinal Natural Products database (CamMedNP) 、Central African Medicinal Plants database (ConMedNP)、Ethiopian Traditional Medicine Database (ETM-DB);
8、类药天然化合物数据库:DrugBank、BindingBD、Novel Antibiotics Database、ChemIDplus、Herbal Ingredient Targets、Herbal Ingredients in vivo Metabolism (HIM)、NPCARE、Indian Plant Anticancer Compounds Database(InPACdb)、Naturally Occurring Plant-based Anti-cancer Compound-Activity-Target (NPACT) database、US National Cancer Institute maintains and makes freely available a number of small (390 on average) natural compound datasets、InflamNat、BioPhytMol、Open Source Malaria;
9、食物天然产物数据库:FooDB、BitterDB、Phenol-Explorer、PhytoHub、SuperSweet database;
10、毒性天然产物数据库:Exposome-explorer、T3DB、Animal Toxin Database (ATDB)、International Venom and Toxin Database、Snake Neurotoxin Database、Mollusk Toxin Database、Scorpion Toxin Database、Toxic Plants—Phytotoxins Database (TPPT);
11、其他天然产物数据库:Carotenoids database、SuperScent;
12、按生物地理起源划分的天然产物数据库:BIOFAQUIM、Nuclei of Bioassays, Ecophysiology and Biosynthesis of Natural Products Database(NUBBEDB)、UEFS dataset、Northern African Natural Products Database(NANPDB)、South African natural compound database(SANCDB)、Mitishamba database、ChemDB 、MAPS database、VIETHERB、Marine Compound Database (MCDB) 、Marine Natural Product Database (MNPD)、Dragon Exploration System on Marine Sponge Compounds Interactions (DESMCI)、Seaweed Metabolite Database;
13、天然产物工业目录:Ambinter-Greenpharma natural compound library、ChemBridge diversity datasets、LOPAC1280、AnalytiCon Discovery、InterBioScreen、Indofine Chemical Company、Pi Chemicals Systems、Specs。
图1 自2000年在科学文献中引用的天然产物数据库列表,按数据库名称的字母顺序排序。
图片来源于: Review on natural products databases: where to find data in 2020
天然产物是医学、化学和社会研究的重要分子。到目前为止,还没有任何通用的,学术界认可的已去重的NP数据库用于发现和筛选;而是大量非常多样化的数据库和数据集,并且部分的数据库和数据集已经不能访问,这是知识的严重损失;因此,有必要为NP提供统一的通用存储库。作者对目前开放的NP数据资源重新汇编在Zenodo(https://doi.org/10.5281/zenod o.3547718)网站,即 COlleCtion of Open NatUral producTs(COCONUT)数据库。目前正在开发一个Web界面,用于用户友好的查询,浏览和下载已知的NP,将来也会对COCONUT中的分子注释进行改进。
爱菩新医药开发系列化学信息学系统,支持各类化学数据库快速搭建,为您定制专属的数据库,欢迎关注并联系我们!
参考文献
Sorokina, M., Steinbeck, C. Review on natural products databases: where to find data in 2020. J Cheminform 12, 20 (2020). https://doi.org/10.1186/s13321-020-00424-9
原文链接
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-020-00424-9