2020.11.1【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 上)

  • ·学习目标
    • 定义分子数据库的类型
    • 定义索引编号和RefSeq标识符的意义
    • 描述主要的基因组浏览器和使用它们来研究基因组区域的特点;
    • 使用数据来研究单个基因(蛋白质)和大量基因、蛋白质的信息
  • 2.1 生物数据库入门介绍
    • 目前,公共数据库已经手机了百万亿(10^15)的DNA核苷酸数据,并很快回答到兆2级别>10^18碱基)的数量。这些数据来自超过三十万个物种。本章目的是介绍存储数据的数据库以及从数据库提取信息的方法。
  • 2.2 集中存储DNA序列的数据库
    • 国际核酸序列数据库(INSDC)
      • 2020.11.1【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 上)
      • GenBank数据库
      • 欧洲分子生物学实验室-核苷酸序列存储数据库(EMBL-Bank)
      • 日本DNA数据库(DDBJ)
      • DNA序列在三大数据库之间共享
        • 2020.11.1【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 上)
      • 个数据存储库的DNA序列的增长
        • 2020.11.1【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 上)
        • SRA目前的DNA碱基个数是GenBank和WGS数据库的3000多倍。(2015年2月)
      • DNA碱基对单位
        • 2020.11.1【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 上)
      • 文件大小范围及案例
        • 2020.11.1【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 上)
  • 2.3 DNA、RNA和蛋白质数据库
    • GenBank
      • 一个包含绝大多数已知公开的DNA和蛋白质序列,但不包括二代测序数据的公共数据库。除存储数据外,还包含文献和生物学注释信息,GenBank的数据都可以从NCBI免费获取
    • GenBank、EMBL-Bank和DDBJ中的物种
      • 收录超过31万个不同物种的数据,每个月还会录入超过1000个新物种的数据。(Benson等,2015)
        • GenBank分类代表
          • 2020.11.1【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 上)
        • GenBank中十大测序最多物种
          • 2020.11.1【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 上)
    • GenBank、EMBL-Bank和DDBJ存储的数据类型
      • DNA、RNA和蛋白质序列被分别存储在不同数据库中,数据库内部,也会有多种展现数据的形式。
        • 存储在不同数据库里的数据可以用生物学中的中心法则来理解2020.11.1【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 上)
    • 基因组DNA数据库
      • 基因是一段DNA序列,包含调控区域、编码蛋白质的外显子和内含子。人类基因大小一般在10~100kb。
      • DNA层面数据:序列标签位点(STSs)
        • STSs是较短的(500bp)并且能够获取DNA序列数据和图谱数据的基因组标志性序列。
      • DNA层面数据:基因组勘测序列(GSSs)*(没有搞懂)
        • GSS部分收录如下几类数据类型:
          • 随机“单次测序”的基因组测序序列
          • 粘粒、BAC、YAC末端序列
          • 外显子捕捉的基因组序列
          • Alu聚合酶链反应(PCR)序列
      • DNA层面数据:高通量基因组序列(HTGs)
        • 为了更快得到目前“尚未完成”的基因组序列数据,人们建立了HTGS数据库,他记录了由高通量测序中心测序产生的未完成的DNA序列。
    • RNA数据
      • RNA层面数据:与表达基因相对应的cDNA数据库
        • 存储RNA转化的互补DNA的数据库。
      • RNA层面数据:表达序列标签(ESTs)
        • 表达序列标签数据库(dbEST)是GenBank数据库的子库,它收录了一系列物种中的“单次测序”的cDNA序列数据和相关信息。1个EST是一个cDNA克隆的一部分DNA序列。
        • 表达序列标签作为一个特定的cDNA文库中得到的一段cDNA序列。
        • 目前GenBank把EST分成三大类:人类、小鼠和其他生物。
          • 2020.11.1【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 上)
      • RNA层面数据:UniGene(特异基因)
        • UniGene项目的目的是通过把EST自动分成不溶于的集合从而创造出基因源簇,最终只有一个UniGene簇对应到一个物种中每一个基因上。
          • 目前还有的142物种的19个类群2020.11.1【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 上)
        • UniGene簇是一个基因的数据库条目,这个数据库条目包含了所有和这个基因对应的EST
          • 以HBB为例2020.11.1【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 上)
        • 理论上UniGene簇(130000)数量应该与基因(人类20300)一样多,这种差异主要有三个原因:
          • 基因组大部分序列转录水平低。在UniGene build 235版本中,64000个人类UniGene簇只含有1个EST,100000个UniGene簇仅含有1-4个EST
          • DNA简历cDNA库时被转录并不对应真是的转录本,可能为克隆中的副产品。
          • 多个UniGene可能对应同一个基因。完成全基因组测序后,UniGene会聚到一起,因此UniGene个数可能会随时间推移逐渐变少
    • 蛋白质数据库
      • NCBI中的蛋白质数据库包含了从GenBank数据库中翻译的编码区域和其他外部数据库的蛋白质序列,如UniProt、PIR、SWISS_PROT、PRF和PDB,EBI同样通过这些主要的数据库提供了关于蛋白质的信息。
      • UniProt数据库
        • 目前最全面、集中的蛋白质序列编目录,它由3个关键数据库组成
          • Swiss-Prot
            • 被认为是注释最好的蛋白质数据库
          • TrEMBL
            • 提供Swiss-Prot没有收录的蛋白质的自动化注释
          • Protein Sequence Database 
            • 另一个由专家注释的蛋白质数据库
        • UniProt有三个数据层
          • UniProtKB
            • 中心数据库,分为手动注释和计算机注释
          • UniProt Reference Clusters
            • 提供基于UniProtKB的非冗余参考簇,可提供序列间一致性至少为50%、90%、100%的UniRef簇的成员
          • UniProt Archive
            • 是一个稳定的、非冗余的、有多种来源的蛋白质序列数据库
    • 生物信息学领域核心数据库:NCBI和EBI
      • NCBI重要资源
        • PubMed
          • 提供2400万条引用以及许多在线期刊的链接
        • Entrez
          • 将科学文献、DNA、蛋白质序列数据库、蛋白质三维结构数据、种群研究数据集以及全基因组组装数据正和城一个紧密偶联的系统。
        • BLAST
          • 序列相似性搜索工具
        • OMIM
          • 人类基因和遗传疾病的目录
        • Taxonomy
          • 包含了生物的主要分类浏览器,提供一系列分类信息2020.11.1【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 上)
        • Structure
          • 大分子三维结构的数据库,提供了对这些结构的可视化工具和进行比较分析的工具。
      • EBI重要资源
        • 拥有6个核心分子数据库
          • EMBL-Bank
            • DNA、RNA序列数据库
          • Swiss-Prot和TrEMBL
            • 蛋白质数据库
          • MSD
            • 蛋白质结构数据库
          • Ensemble
            • 基因组浏览器
          • ArrayExpress
            • 基因表达数据库
        • Ensemble
          • 成立于1999年,致力于注释人类基因组,目前已经注释了70多个脊椎动物。
  •