记PAM250矩阵的自乘
然而如此严格的矩阵是不可能对现有绝大多数的氨基酸比对计算概率,因为高度相似,好多位点不发生突变,也就使得相似程度过低的序列无法排列出进化关系。Dayhoff将PAM1矩阵自身相乘了250次,得到了PAM250矩阵,这是一个非常理想化的矩阵,可以对现存所有的氨基酸比对打分,为什么这么做?她本人并没有给出解释,后继的研究者,懂了也就懂了,不懂仍是不懂,她像是一座思维的山峰。
PAM250矩阵是个概率表,由于序列比对过程中,一个氨基酸突变了,下一个氨基酸也突变,两个相邻的氨基酸同时的突变则是两个概率的乘积,不便于计算,Dayhoff就取了对数,换算成上面的样子,以后再有比对就直接相加分值就可以了。
让人费解的并不是PAM250矩阵的比值比取对数,而是她为什么让PAM1矩阵自身相乘250次,得到PAM250矩阵来对所有的氨基酸比对打分呢,当然她是试出来的,但我们不否认250次科学与否,而是质疑为什么要自身相乘呢?
这是一个A和B相互变异的一个例子。
A和B都是最原始的自身序列,因此都是1。
起初的样子应该是这样的。
当选择压力来的时候,A以0.9的突变率变成自己,以0.1的情况变成B;B则以0.8的突变率变成自己,以0.2的情况变成A;
突变后的结果应该是这样的。
进化结果是A变成了0.9+0.2=1.1,B则变成了0.8+0.1=0.9。
当第二次选择压力来的时候,情况会变成怎样?
下面是各个位点的突变分解,不要忘了:只要是A,就要承受0.9的自变和0.1的异变,只要是B,就要承受0.8的自变和0.2的异变。
那么第二次的选择压力结果会是下图所示:
那么A组的变异结果就是下面的加和:
A=(0.9×0.9)+(0.1×0.2)=0.83
B=(0.9×0.1)+(0.1×0.8)=0.17
B组的变异结果就是下面的加和:
A=(0.2×0.9)+(0.2×0.8)=0.34
B=(0.2×0.1)+(0.8×0.8)=0.66
第二次选择压力下的变异结果就应该是这样的:
进化结果是A变成了0.83+0.34=1.17,B则变成了0.66+0.17=0.83。
我们看一下两次压力下的变异情况:
我们看一下矩阵自乘的结果做比较:
这个结果说明可以用矩阵的自乘正好对于第二次选择压力下的突变。
PAM1自身相乘250次,表明现存所有蛋白质序列是经历了250次的选择压力后而呈现的概率最适宜对现有的蛋白质比对做区分,Dayhoff并不以进化的初期的蛋白质群作为衡量的标准,也不让矩阵自乘至无穷,而是选择了她假定的一个过程,PAM1自身相乘了250次这个过程表明了地球现有物种基因的任何一个氨基酸都有突变成另一个氨基酸的可能性,但大小各不相同。
唯有一个问题留在最后,就是:矩阵乘积的本质含义到底是什么?
Dayhoff矩阵使得每一行的氨基酸按照它所对应突变成的氨基酸的概率发生变异,然后累加到下一次的突变当中去,同时保留部分变异后的自身。Dayhoff是如何想到的,为什么她理解的矩阵与我们是如此的不同?