2020.11.1【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 上)
分类:
文章
•
2023-11-02 21:36:04
- ·学习目标
- 描述主要的基因组浏览器和使用它们来研究基因组区域的特点;
- 使用数据来研究单个基因(蛋白质)和大量基因、蛋白质的信息
- 2.1 生物数据库入门介绍
- 目前,公共数据库已经手机了百万亿(10^15)的DNA核苷酸数据,并很快回答到兆2级别>10^18碱基)的数量。这些数据来自超过三十万个物种。本章目的是介绍存储数据的数据库以及从数据库提取信息的方法。
- 2.2 集中存储DNA序列的数据库
- 国际核酸序列数据库(INSDC)
- 欧洲分子生物学实验室-核苷酸序列存储数据库(EMBL-Bank)
- 个数据存储库的DNA序列的增长
- SRA目前的DNA碱基个数是GenBank和WGS数据库的3000多倍。(2015年2月)
- 2.3 DNA、RNA和蛋白质数据库
- GenBank
- 一个包含绝大多数已知公开的DNA和蛋白质序列,但不包括二代测序数据的公共数据库。除存储数据外,还包含文献和生物学注释信息,GenBank的数据都可以从NCBI免费获取
- GenBank、EMBL-Bank和DDBJ中的物种
- 收录超过31万个不同物种的数据,每个月还会录入超过1000个新物种的数据。(Benson等,2015)
- GenBank、EMBL-Bank和DDBJ存储的数据类型
- DNA、RNA和蛋白质序列被分别存储在不同数据库中,数据库内部,也会有多种展现数据的形式。
- 存储在不同数据库里的数据可以用生物学中的中心法则来理解
- 基因组DNA数据库
- 基因是一段DNA序列,包含调控区域、编码蛋白质的外显子和内含子。人类基因大小一般在10~100kb。
- DNA层面数据:序列标签位点(STSs)
- STSs是较短的(500bp)并且能够获取DNA序列数据和图谱数据的基因组标志性序列。
- DNA层面数据:基因组勘测序列(GSSs)*(没有搞懂)
- DNA层面数据:高通量基因组序列(HTGs)
- 为了更快得到目前“尚未完成”的基因组序列数据,人们建立了HTGS数据库,他记录了由高通量测序中心测序产生的未完成的DNA序列。
- RNA数据
- RNA层面数据:表达序列标签(ESTs)
- 表达序列标签数据库(dbEST)是GenBank数据库的子库,它收录了一系列物种中的“单次测序”的cDNA序列数据和相关信息。1个EST是一个cDNA克隆的一部分DNA序列。
- 表达序列标签作为一个特定的cDNA文库中得到的一段cDNA序列。
- 目前GenBank把EST分成三大类:人类、小鼠和其他生物。
- RNA层面数据:UniGene(特异基因)
- UniGene项目的目的是通过把EST自动分成不溶于的集合从而创造出基因源簇,最终只有一个UniGene簇对应到一个物种中每一个基因上。
- 目前还有的142物种的19个类群
- UniGene簇是一个基因的数据库条目,这个数据库条目包含了所有和这个基因对应的EST
- 以HBB为例
- 理论上UniGene簇(130000)数量应该与基因(人类20300)一样多,这种差异主要有三个原因:
- 基因组大部分序列转录水平低。在UniGene build 235版本中,64000个人类UniGene簇只含有1个EST,100000个UniGene簇仅含有1-4个EST
- DNA简历cDNA库时被转录并不对应真是的转录本,可能为克隆中的副产品。
- 多个UniGene可能对应同一个基因。完成全基因组测序后,UniGene会聚到一起,因此UniGene个数可能会随时间推移逐渐变少
- 蛋白质数据库
- NCBI中的蛋白质数据库包含了从GenBank数据库中翻译的编码区域和其他外部数据库的蛋白质序列,如UniProt、PIR、SWISS_PROT、PRF和PDB,EBI同样通过这些主要的数据库提供了关于蛋白质的信息。
- UniProt数据库
- 目前最全面、集中的蛋白质序列编目录,它由3个关键数据库组成
- TrEMBL
- 提供Swiss-Prot没有收录的蛋白质的自动化注释
- Protein Sequence Database
- UniProt有三个数据层
- UniProt Reference Clusters
- 提供基于UniProtKB的非冗余参考簇,可提供序列间一致性至少为50%、90%、100%的UniRef簇的成员
- UniProt Archive
- 是一个稳定的、非冗余的、有多种来源的蛋白质序列数据库
- 生物信息学领域核心数据库:NCBI和EBI
- NCBI重要资源
- Entrez
- 将科学文献、DNA、蛋白质序列数据库、蛋白质三维结构数据、种群研究数据集以及全基因组组装数据正和城一个紧密偶联的系统。
- Taxonomy
- 包含了生物的主要分类浏览器,提供一系列分类信息
- Structure
- 大分子三维结构的数据库,提供了对这些结构的可视化工具和进行比较分析的工具。
- EBI重要资源
- Ensemble
- 成立于1999年,致力于注释人类基因组,目前已经注释了70多个脊椎动物。
-