2020.11.1【读书笔记】丨生物信息学与功能基因组学（第二章序列数据的获取上）

·学习目标
- 定义分子数据库的类型
- 定义索引编号和RefSeq标识符的意义
- 描述主要的基因组浏览器和使用它们来研究基因组区域的特点；
- 使用数据来研究单个基因（蛋白质）和大量基因、蛋白质的信息
2.1 生物数据库入门介绍
- 目前，公共数据库已经手机了百万亿（10^15）的DNA核苷酸数据，并很快回答到兆2级别>10^18碱基）的数量。这些数据来自超过三十万个物种。本章目的是介绍存储数据的数据库以及从数据库提取信息的方法。
2.2 集中存储DNA序列的数据库
- 国际核酸序列数据库（INSDC）
  - GenBank数据库
  - 欧洲分子生物学实验室-核苷酸序列存储数据库（EMBL-Bank）
  - 日本DNA数据库（DDBJ）
  - DNA序列在三大数据库之间共享
  - 个数据存储库的DNA序列的增长
    - SRA目前的DNA碱基个数是GenBank和WGS数据库的3000多倍。（2015年2月）
  - DNA碱基对单位
  - 文件大小范围及案例
2.3 DNA、RNA和蛋白质数据库
- GenBank
  - 一个包含绝大多数已知公开的DNA和蛋白质序列，但不包括二代测序数据的公共数据库。除存储数据外，还包含文献和生物学注释信息，GenBank的数据都可以从NCBI免费获取
- GenBank、EMBL-Bank和DDBJ中的物种
  - 收录超过31万个不同物种的数据，每个月还会录入超过1000个新物种的数据。（Benson等，2015）
    - GenBank分类代表
    - GenBank中十大测序最多物种
- GenBank、EMBL-Bank和DDBJ存储的数据类型
  - DNA、RNA和蛋白质序列被分别存储在不同数据库中，数据库内部，也会有多种展现数据的形式。
    - 存储在不同数据库里的数据可以用生物学中的中心法则来理解
- 基因组DNA数据库
  - 基因是一段DNA序列，包含调控区域、编码蛋白质的外显子和内含子。人类基因大小一般在10~100kb。
  - DNA层面数据：序列标签位点（STSs）
    - STSs是较短的（500bp）并且能够获取DNA序列数据和图谱数据的基因组标志性序列。
  - DNA层面数据：基因组勘测序列（GSSs）*（没有搞懂）
    - GSS部分收录如下几类数据类型：
      - 随机“单次测序”的基因组测序序列
      - 粘粒、BAC、YAC末端序列
      - 外显子捕捉的基因组序列
      - Alu聚合酶链反应（PCR）序列
  - DNA层面数据：高通量基因组序列（HTGs）
    - 为了更快得到目前“尚未完成”的基因组序列数据，人们建立了HTGS数据库，他记录了由高通量测序中心测序产生的未完成的DNA序列。
- RNA数据
  - RNA层面数据：与表达基因相对应的cDNA数据库
    - 存储RNA转化的互补DNA的数据库。
  - RNA层面数据：表达序列标签（ESTs）
    - 表达序列标签数据库（dbEST）是GenBank数据库的子库，它收录了一系列物种中的“单次测序”的cDNA序列数据和相关信息。1个EST是一个cDNA克隆的一部分DNA序列。
    - 表达序列标签作为一个特定的cDNA文库中得到的一段cDNA序列。
    - 目前GenBank把EST分成三大类：人类、小鼠和其他生物。
  - RNA层面数据：UniGene（特异基因）
    - UniGene项目的目的是通过把EST自动分成不溶于的集合从而创造出基因源簇，最终只有一个UniGene簇对应到一个物种中每一个基因上。
      - 目前还有的142物种的19个类群
    - UniGene簇是一个基因的数据库条目，这个数据库条目包含了所有和这个基因对应的EST
      - 以HBB为例
    - 理论上UniGene簇（130000）数量应该与基因（人类20300）一样多，这种差异主要有三个原因：
      - 基因组大部分序列转录水平低。在UniGene build 235版本中，64000个人类UniGene簇只含有1个EST，100000个UniGene簇仅含有1-4个EST
      - DNA简历cDNA库时被转录并不对应真是的转录本，可能为克隆中的副产品。
      - 多个UniGene可能对应同一个基因。完成全基因组测序后，UniGene会聚到一起，因此UniGene个数可能会随时间推移逐渐变少
- 蛋白质数据库
  - NCBI中的蛋白质数据库包含了从GenBank数据库中翻译的编码区域和其他外部数据库的蛋白质序列，如UniProt、PIR、SWISS_PROT、PRF和PDB，EBI同样通过这些主要的数据库提供了关于蛋白质的信息。
  - UniProt数据库
    - 目前最全面、集中的蛋白质序列编目录，它由3个关键数据库组成
      - Swiss-Prot
        被认为是注释最好的蛋白质数据库
      - TrEMBL
        提供Swiss-Prot没有收录的蛋白质的自动化注释
      - Protein Sequence Database
        另一个由专家注释的蛋白质数据库
    - UniProt有三个数据层
      - UniProtKB
        中心数据库，分为手动注释和计算机注释
      - UniProt Reference Clusters
        提供基于UniProtKB的非冗余参考簇，可提供序列间一致性至少为50%、90%、100%的UniRef簇的成员
      - UniProt Archive
        是一个稳定的、非冗余的、有多种来源的蛋白质序列数据库
- 生物信息学领域核心数据库：NCBI和EBI
  - NCBI重要资源
    - PubMed
      - 提供2400万条引用以及许多在线期刊的链接
    - Entrez
      - 将科学文献、DNA、蛋白质序列数据库、蛋白质三维结构数据、种群研究数据集以及全基因组组装数据正和城一个紧密偶联的系统。
    - BLAST
      - 序列相似性搜索工具
    - OMIM
      - 人类基因和遗传疾病的目录
    - Taxonomy
      - 包含了生物的主要分类浏览器，提供一系列分类信息
    - Structure
      - 大分子三维结构的数据库，提供了对这些结构的可视化工具和进行比较分析的工具。
  - EBI重要资源
    - 拥有6个核心分子数据库
      - EMBL-Bank
        DNA、RNA序列数据库
      - Swiss-Prot和TrEMBL
        蛋白质数据库
      - MSD
        蛋白质结构数据库
      - Ensemble
        基因组浏览器
      - ArrayExpress
        基因表达数据库
    - Ensemble
      - 成立于1999年，致力于注释人类基因组，目前已经注释了70多个脊椎动物。

2020.11.1【读书笔记】丨生物信息学与功能基因组学（第二章 序列数据的获取 上）

相关推荐

2020.11.1【读书笔记】丨生物信息学与功能基因组学（第二章序列数据的获取上）