基本概念之同源性和蛋白质家族的基本概念的理解

蛋白质结构域英语:protein domain)是蛋白质中的一类结构单元,是构成蛋白质(三级)结构的基本单元。

有些球形蛋白的一条肽链,或以共价键相连的两条或多条肽链在空间结构上可以区分为若干个球状的子结构,其中的每一个球状子结构就被称为一个结构域。

同一个蛋白的各个结构域之间是以肽链相互链接的,而链接两个蛋白质结构域的绝大多数都是单股肽链,只有在极个别的情况下会有少数的双股肽链联系不同的结构域。

蛋白质结构域在空间上具有临近相关性:即在蛋白质一级结构上相互临近的氨基酸残基,在蛋白质结构域的三维空间结构上也相互临近,在蛋白质一级结构上相互远离的氨基酸残基,在蛋白质结构域的空间结构上也相互远离,甚至分别属于不同的蛋白质结构域。

蛋白质结构域与蛋白质完成生理功能有着密切的关系,有时几个结构域共同完成一项生理功能,有时一个结构域就可以独立完成一项生理功能,但是一个结构不完整的蛋白质结构域是不可能产生生理功能的。因此蛋白质结构域是蛋白质生理功能的结构基础,但必须指出的是,虽然蛋白质结构域与蛋白质的功能关系密切,但是蛋白质结构域和功能域的概念并不相同。


模体(motif)表示具有特定功能的或作为一个独立结构域一部分的相邻的二级结构的聚合体,它一般被称为功能模体(functional motif)或结构模体(structural motif),相当于超二级结构(super-secondary structure)。模体和结构域一起组成了蛋白质的三级结构。结构模体作为结构域的组分,介于蛋白质二级结构和三级结构之间,


同源(Homology)的概念。

Homology: the existence of shared ancestry between a pair of structures, or genes, in different species.
如果两个或多个结构具有相同的祖先,也就是它们由一个共同的祖先演化而来,则称它们同源(Homology)

在生物信息中,同源主要是指序列上的同源,也就是用来说明两个或多个蛋白质或DNA序列具有相同的祖先。同源关系的强弱可以帮助了解物种间的亲缘关系,是重构系统发生树的有力手段。而且,同源的序列一般有相似的功能。序列中同源的部分也被称为保守的(conserved)
蛋白质和DNA的同源性常常通过它们序列的相似性(Sequence similarity)来判定,相似性一般用检测序列和目标序列之间序列一致性(Percent identity)来表示。
相似性(Sequence similarity)是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。一般来说,当相似程度高于50%时,常推测检测序列和目标序列可能是同源序列;当相似性程度低于20%时,就难以确定其是否具有同源性。

同源蛋白质:指进化上相关的蛋白质。即不同物种中具有相同或相似功能的蛋白质或具有明显序列同源性的蛋白质。

胰岛素都有降低血糖的功能,分析不同哺乳动物中的胰岛素,发现它们都是由51个氨基酸组成.其中有24个氨基酸始终保持不变,6个半胱氨酸残基的位置始终不变,这说明不同来源的胰岛素中A,B链之间都有共同的连接方式.三对-S-S-对维持高级结构起着重要作用,其它一些不变的氨基酸绝大多数都是非极性氨基酸.这些非极性氨基酸对维持胰岛素分子的高级结构起着稳定作用.从而可知:不同来源的胰岛素,其空间结构大致相同,可变的氨基酸部分不影响胰岛素的活性.
蛋白质远程同源性(remote homology)是指具有同源相似性性的蛋白质已经充分进化,不再具有较强的序列间的相似性。

SCOP数据库按照蛋白质的结构和进化关系将蛋白质分为四个主要层次:
家族(family)、超家族(superfamily)、折叠(fold)和类(class)

蛋白质远程同源性检测的目的是预测蛋白质的家族信息,因为具有同源性的蛋白质通常具有相似的结构和功能,所以可以由已知蛋白质家族的结构和功能推测出新测定蛋白质的结构和功能


第二个需要搞清楚概念就是同源的两种基本类型,直系同源(orthology)和旁系同源(paralogy)。
同源现象可以分为直系同源(orthology)旁系同源(paralogy)
Orthologs(orthologous genes) are genes in different species that originated by vertical descent from a single gene of the last common ancestor.
直系同源(orthology)是指在不同物种中的某一基因來自同一祖先,在演化过程中因物种形成(speciation)而被区分开,也就是说,一个基因原先存在于某个物种,后来该物种分化成了两个物种,那么新形成的物种之间,或相应的基因关系,便是直系同源的关系。(见图中绿色大括号)
Paralogs(paralogous genes)are created by a duplication event within the genome. For gene duplication events, if a gene in an organism is duplicated to occupy two different positions in the same genome, then the two copies are paralogous.
旁系同源(paralogy)是指种系间的基因复制。若生物体中的某个基因被复制了,在演化过程中,存在于同一物种基因组中不同的两个位置,那么这两个副本序列之间的关系就是旁系同源的。


第三组概念就是趋同演化(Convergent evolution)趋异演化Divergent evolution

需要注意的是,相似不一定同源。比如说,昆虫的翅膀、蝙蝠的翅膀和鸟类的翅膀是相似的,但却不同源。

Convergent evolution : Convergent evolution creates analogous structures that have similar form or function, but that were not present in the last common ancestor of those groups.
Analogous: Functionally similar features arising through convergent evolution.
这些相似的结构可以由不同的渠道演化而来,这种演化过程叫做趋同演化(Convergent evolution)。这种由趋同演化得到的相似特征,被称为非同源相似或同形质(Analogous或Homoplasy)


Divergent evolutionthe accumulation of differences between groups which can lead to the formation of new species, usually a result of diffusion of the same species to different and isolated environments which blocks the gene flow among the distinct populations allowing differentiated fixation of characteristics through genetic drift and natural selection.

趋异演化Divergent evolution):同一物种不同群体之间累积性差异导致新物种的形成通常是同一物种扩散后在不同隔离的环境下通过基因漂移和自然选择基因分化固定后的结果。也就是,指两个或多个生物学特征具有共同演化起源,源自于同一物种,但在演化历程中因环境等自然选择压力的原因,逐渐分化的现象

基本概念之同源性和蛋白质家族的基本概念的理解

图片来自lesiuk-biology.wikispaces.com/


第四组概念就是蛋白质家族(Protein family)蛋白质超家族(Protein superfamilies)。其实这个并没有明确的定义,简单来说,许多算法能够将蛋白质序列聚类为若干蛋白质家族,每族里的序列基本同源,其中某些蛋白质家族又可被归为一个蛋白质超家族。蛋白质家族常常是基因家族的同义词,因为基因编码相对应的蛋白。

Protein family is a group of evolutionarily-related proteins. In many cases a protein family has a corresponding gene family, in which each gene encodes a corresponding protein with a 1:1 relationship. Proteins in a family descend from a common ancestor and typically have similar three-dimensional structures, functions, and significant sequence similarity. 
蛋白质家族(Protein family)是指一组进化上相关的蛋白,具有同源性(来自于相同祖先),相似的结构及功能,显著的序列相似性。 
Families are sometimes grouped together into larger clades called superfamilies based on structural and mechanistic similarity, even if there is no identifiable sequence homology
蛋白质超家族(protein superfamily),一些蛋白质家族被归入更大的进化分支,基于结构机制的相似性,尽管其没有可以确定(显著)的序列同源性。简单而言,就是蛋白质超家族包括了更多进化相关的蛋白,虽然没说有同源性,但因为其结构或功能基本相似,也被归为一个大类。而蛋白质家族的同源关系是可以确定的,也就是关系上更加严格些。
References:
https://zh.wikipedia.org/wiki/%E5%90%8C%E6%BA%90
https://en.wikipedia.org/wiki/Homology_%28biology%29
https://en.wikipedia.org/wiki/Protein_family


转载:http://blog.sciencenet.cn/blog-3027933-956147.html