2020.11.2【读书笔记】丨生物信息学与功能基因组学（第二章序列数据的获取中）

2.4 用于标记和鉴别序列的索引编号
- DNA和蛋白质序列记录的重要特征是他们都被打上了索引编号作为标签。索引编号由一段4~12个数字和/或字母组成的编号，每个索引编号与一个分子序列记录相对于。
- 一个分子对应多个索引编号，这些索引编号可以代表全长/片段，代表核酸/蛋白质，需要尽快熟悉。
- 参考序列（RefSeq）项目
  - 目的：为每一个基因的正常转录本和正常蛋白质产物提供最有代表性的序列。
  - 对于一个给定的基因或基因产物，只会有一个RefSeq条目；如果基因有可变剪切或是在不同的基因座上，则会有几个RefSeq条目。
  - RefSeq条目是由NCBI的工作人员人工审核后得到的数据，几乎没有冗余性。
  - RefSeq有三种状态：预测的，暂时的，验证过的，但在每一个状态下，RefSeq条目都是为了统一序列记录。
    - 以β球蛋白为例
  - RefSeq条目索引编号的格式
    - 格式
    - β球蛋白为例
- RefSeqGene和基因座参考基因组项目（LRG）
  - 目的：为了解决版本号改动而无法确定基因变异位置的问题，LRG项目被引入。LRG可用作基因参考标准的基因组序列，代表了一个标准的等位基因。
- 共识编码项目（CCDS）
  - 目的：鉴别出一组核心的蛋白质编码序列，为一套标准的基因注释提供依据。
- 脊椎动物基因组注释项目（VEGA）
  - 目的：该数据库针对人类、小鼠和其他选定的脊椎动物提供专家手动注释的高质量的基因组注释。
2.5 利用NCBI的基因资源进行基因信息的获取
- Entrez Gene介绍与使用
  - 简介：
    - Entrez Gene是一个含有基因座描述信息的标准数据库，可以获取官方命名、别名、序列索引编号、表型、酶学委员会编号、OMIM编号、UniGene簇、HomoloGene、图谱位置和相关网站等信息。
  - 获取方式：
    - 选择Entrez Gene，并检索感兴趣的基因
    - 选择人类β球蛋白得到详细信息
    - 选择RefSeq获取详细信息，还可以更改显示选项得到不同格式
- NCBI Gene、Nucleotide、Protein之间的关系
  - 通过Gene搜索可以获取官方基因名称，确定基因所在染色体位置，还能通过参考序列找到含有RefSeq的所有DNA和蛋白质变异位点。
- NCBI Gene与UniGene的比较
  - 共同点
    - 有OMIM链接、同源基因和回帖信息，都提供RefSeq索引编号。
  - 不同点
    - UniGene有详细的基因表达信息
    - UniGene可以列出一个与基因相对应的ESt
    - Gene针对某个特定基因给出更加固定的描述信息，UniGene条目可能会进行修改
    - Gene比UniGene条目更少，但是收录信息被人工审核的范围更广。
- NCBI Gene与HomoloGene
  - HomoloGene数据库提供一组来自一系列完整测序的真核生物基因组的注释的蛋白质。

2020.11.2【读书笔记】丨生物信息学与功能基因组学（第二章 序列数据的获取 中）

相关推荐

2020.11.2【读书笔记】丨生物信息学与功能基因组学（第二章序列数据的获取中）