2019-ICLR-蛋白质embedding《LEARNING PROTEIN SEQUENCE EMBEDDINGS USING INFORMATION FROM STRUCTURE 》
2019-ICLR-蛋白质embedding
论文笔记《LEARNING PROTEIN SEQUENCE EMBEDDINGS USING INFORMATION FROM STRUCTURE 》
背景
大多数蛋白质的结构都是未知的,而相关蛋白质结构的信息对于研究这些分子机器在健康和疾病中的机制以及开发新疗法至关重要。
利用实验方法确定结构耗时耗力。
本文提出了一种计算方法–根据表征学习构建了一个蛋白质序列的映射框架,并且根据两步反馈机制(蛋白质全局相似性与残基-残基接触识别)训练了双向LSTM的蛋白质序列编码模型。
方法
1.BILSTM SEQUENCE ENCODER WITH PRETRAINED LANGUAGE MODEL
预训练模型:在Pfam数据库中完整的蛋白质域序列集(共21,827,419个)上进行训练:
BiLSTM编码器:将1-hot向量表示与预训练模型的隐藏层作为编码器的输入:
2.PROTEIN STRUCTURE COMPARISON
SCOP是蛋白质域结构的专业管理数据库,根据SCOP层次结构共享的级别,将一对蛋白质的相似度分为5类, y ∈ {0,1,2,3, 4}
SOFT SYMMETRIC ALIGNMENT(SSA):在向量嵌入的任意长度序列之间定义的一种新颖的相似性度量。该度量方法也是本文的创新点之一。
计算相似性损失函数:
3.RESIDUE-RESIDUE CONTACT PREDICTION
两个残基i和j在3D结构中的接触预测。
定义大小为(N* N* 2D)的成对特征张量,其中D是包含成对特征的嵌入向量的维数,该成对特征(具有对称性)为:
转化为N* N* H张量后进行卷积(卷积核7 * 7)并填充,得到N*N的矩阵。其中**函数:
接触预测的损失函数定义为残基对的已知接触标签和预测接触概率之间的交叉熵的期望。
根据蛋白质序列之间的全局相似性与残基-残基接触预测,定义完整的多任务学习损失函数:
结果
为了证明该框架的有效性,做了一些对比实验,这里就不贴上来了。
总结
Pfam数据库包含的蛋白质结构域信息对于蛋白质序列来说非常重要。
这篇论文提出的用pfam预训练的语言模型我用自己的数据集跑过,效果不错。论文写的也很好,通熟易懂。
参考文献:
Bepler T , Berger B . Learning protein sequence embeddings using information from structure[J]. 2019.