蛋白质二级结构预测

简介：

基于蛋白质残基统计信息(一肽频数和二肽频数)、物化属性(亲疏水性倾向)、进化信息(特异位置得分矩阵)进行特征表示，使用支持向量机算法构建蛋白质二级结构预测模型。

一、背景

1、蛋白质

（1）蛋白质组成

蛋白质由氨基酸组成。氨基酸序所包含的基本信息为组成蛋白质的氨基酸种类和氨基酸的排列顺序。如蛋白质S的氨基酸序列可以表示为：

蛋白质二级结构预测

其中，AA 代表20种氨基酸，Ri 表示蛋白质第i个位置上的氨基酸，L为蛋白质序列长度。

（2）蛋白质结构

蛋白质有四级结构：一级结构、二级结构、三级结构和四级结构。一级结构即为氨基酸序列，二级结构分为α、β、α/β、α+β四种。

蛋白质的一级结构决定了蛋白质的高级结构，而疏水性残基决定了蛋白质二级结构的相对位置。

注：残基为氨基酸序列中的连续片段；

疏水性：每个氨基酸均有疏水性指数和亲水性指数两个物化属性；

2、意义

蛋白质二级结构既可以应用于进一步预测蛋白质的三级结构和四级结构，又能应用于推测蛋白质的功能，因此蛋白质二级结构预测是蛋白质研究的重要组成部分。

3、难点

不同蛋白质的氨基酸序列长度不同，那么如何在保留尽可能多的氨基酸序列信息的同时将其转化为等长的特征数据？

二、特征表示

1、残基统计信息

残基，即为氨基酸序列的连续片段，可以由n（n>1）个氨基酸组成。

注：n=1时称为一肽，n=2时称为二肽，以此类推；

（1）一肽频数

由于氨基酸的种类是固定的，那么可以将每个蛋白质的20种氨基酸出现的频数表示为一个 1x20 维矩阵，即为该蛋白质的一肽频数。比如蛋白质S的氨基酸序列为：

S = A D C F H C E A H H G H

那么其一肽频数（YT）可以表示为：

YT = [ 2 2 1 1 1 1 4 0 0 0 0 0 0 0 0 0 0 0 0 0 ]

（2）二肽频数

一肽频数只考虑到单个氨基酸的频数信息，那么氨基酸与氨基酸之间的结合信息该如何表示呢？

同样的，可以统计蛋白质中任意两种氨基酸连续出现的频数，形成一个 20x20 维矩阵，即为该蛋白质的二肽频数。比如蛋白质S的二肽频数（ET）可以表示为：

蛋白质二级结构预测

2、物化属性

氨基酸有疏水性指数和亲水性指数两个物化属性。

比较氨基酸的亲水性指数和疏水性指数的大小可以判断蛋白质更偏向于亲水性所倾向的二级结构，还是更偏向于疏水性所倾向的二级结构。20种氨基酸的亲疏水性指数如下表所示：

氨基酸	A	D	C	E	F	G	H	I	K	L
疏水性	0.62	0.29	-0.9	-0.74	1.19	0.48	0.4	1.38	-1.5	1.06
亲水性	-0.5	-1	3	3	-2.5	0	-0.5	-1.8	3	-1.8
氨基酸	M	N	P	Q	R	S	T	V	W	Y
疏水性	0.64	-0.78	0.12	-0.85	-2.53	-0.18	-0.05	1.08	0.81	0.26
亲水性	-1.3	0.2	0	0.2	3	0.3	-0.4	-1.5	-3.4	-2.3

注：疏水性来自JACS, 1962, 84: 4240-4246. (C. Tanford)；

亲水性来自PNAS, 1981, 78:3824-3828 .(T.P.Hopp & K.R.Woods)；

根据蛋白质S的氨基酸序列，该蛋白质的亲水性指数和疏水性指数为：

蛋白质二级结构预测

那么结合蛋白质S的一肽频数（YT），将蛋白质S的亲疏水性倾向（Hydr）表示为：

蛋白质二级结构预测

3、进化信息

特异位置得分矩阵(简称PSSM)，是一种基于蛋白质进化信息的打分矩阵，表示20种氨基酸在蛋白质中特定位置出现的概率。PSSM得分普遍表现为正或负整数，正分数表明给定的氨基酸替代发生的比预期的要频繁，负分数表明替代发生的比预期的要少。大的正分数通常表示关键的功能残基，普遍这可能是其他分子间相互作用所需的活性位点残基或残基。PSSM可以从PSI-BLAST（https://www.ebi.ac.uk）获得。由于PSSM是一个 L×20 维的矩阵（L为基酸序列长度），本文采用矩阵线性转化的方法，将PSSM转化为矩阵P具体如下：

蛋白质二级结构预测

矩阵P是20×20维矩阵，且P是对称矩阵，为了减少冗余的特征属性和计算，本文只采用P的下三角矩阵，并将其转化为一个1×210维矩阵PSSMfeature。

蛋白质二级结构预测

三、模型构建

1、数据

数据分为 3 个数据集，其中数据集 z277 和数据集 z498 的蛋白质相似度较高，数据集 25PDB 与其他两个数据集的蛋白质相似度较低。

注：数据集的蛋白质相似度高，即表示数据集内不同蛋白质的相似度高；

蛋白质二级结构预测

2、算法

数据集样本量较少，本文采用svc算法来训练模型。

（1）多分类问题

SVC主要针对二分类问题，目前将svc使用于多分类问题有2种解决方法。

蛋白质二级结构预测

1）一对多的分类

构造Q（Q为类别的个数）个二分类svc模型，每个模型划分一类样本。

比如第i（1≤i≤Q）个模型负责划分第m（1≤m≤Q）类样本，那么模型的结果只有两种：样本预测为第m类和样本预测为不是第m类。

2）一对一的分类

构造Q(Q-1)/2（Q为类别的个数）个二分类svc模型，每个模型划分任意两类样本。也就是说每一类样本点都要与剩下的Q-1类样本点一一进行比较。比如第i（1≤i≤Q(Q-1)/2）个模型负责划分第m（1≤m≤Q）类和第n（1≤n≤Q）类样本，那么模型的结果只有两种：样本预测为第m类和样本预测为第n类。

由于一对一的分类方法思路较清晰且保留了不同类之间的分割超平面，因此采用一对一的分类方法。

（2）核函数

目前常用的核函数有：线性核函数、多项式核函数、高斯核等。

1）线性核函数：主要用于线性可分的情况，参数少速度快。

2）多项式核函数：全局核函数，因此容易过拟合。

3）高斯核函数：局部核函数，对存在噪声的数据具有很好的抗干扰能力。

本文的数据集特征维度较高（20-610维），核函数选用linear kernel。

3、模型训练

（1）标准化

为了使不同的特征属性具有可比性，且提高模型的分类效果，对特征进行标准化。

（2）留一交叉验证

数据集样本量较小，训练集与测试集有限，采用留一交叉验证可较客观地评估模型的效果。

（3）模型评价

采用acc和mcc指标来评价模型的效果。acc和mcc指标的值越大，分类模型的效果越好。

		预测类别
		Yes	No
实际分类	Yes	TP	FN
实际分类	No	FP	TN

蛋白质二级结构预测

4、模型效果

（1）数据集 z277

特征	acc (%)
特征	α	β	α/β	α+β	all
一肽频数	84.838	87.004	85.560	82.671	70.036
二肽频数	89.892	97.112	93.863	90.975	85.921
亲疏水性倾向	84.838	87.004	85.560	82.671	70.036
PSSMfeature	91.336	93.502	92.058	88.448	82.671
一肽频数 + 亲疏水性倾向	84.838	88.087	86.643	85.560	72.563
二肽频数 + 亲疏水性倾向	89.892	97.112	93.863	91.697	86.282
一肽频数 + PSSMfeature	90.253	96.029	91.336	89.170	83.394
二肽频数 + PSSMfeature	92.058	96.029	94.224	90.975	86.643
亲疏水性倾向 + PSSMfeature	90.253	96.029	91.336	89.170	83.394
一肽频数 + 亲疏水性倾向+ PSSMfeature	89.170	95.668	92.419	89.531	83.394
二肽频数 + 亲疏水性倾向+ PSSMfeature	92.419	96.029	94.224	90.614	86.643

注：四个二级结构所对应的列为分类模型中每个结构类的识别率acc；

all列(最后一列)为分类模型整体的识别率acc(四个结构类正确预测的比例)；

特征	mcc指标
特征	α	β	α/β	α +β
一肽频数	0.611	0.636	0.641	0.512
二肽频数	0.755	0.915	0.852	0.739
亲疏水性倾向	0.611	0.636	0.641	0.512
PSSMfeature	0.775	0.807	0.810	0.675
一肽频数 + 亲疏水性倾向	0.615	0.659	0.672	0.586
二肽频数 + 亲疏水性倾向	0.759	0.915	0.852	0.760
一肽频数 + PSSMfeature	0.752	0.883	0.794	0.687
二肽频数 + PSSMfeature	0.803	0.883	0.862	0.739
亲疏水性倾向 + PSSMfeature	0.752	0.883	0.794	0.687
一肽频数 + 亲疏水性倾向 + PSSMfeature	0.719	0.874	0.821	0.697
二肽频数 + 亲疏水性倾向 + PSSMfeature	0.810	0.883	0.862	0.730

注：四个二级结构所对应的列为分类模型中每个结构类的mcc指标；

蛋白质二级结构预测

（2）数据集 z498

特征	acc (%)
特征	α	β	α/β	α+β	all
一肽频数	82.731	89.357	91.165	89.759	76.506
二肽频数	96.787	98.594	97.791	96.386	94.779
亲疏水性倾向	82.731	89.357	91.165	89.759	76.506
PSSMfeature	96.386	96.787	96.586	93.775	91.767
一肽频数 + 亲疏水性倾向	84.940	89.759	91.365	89.759	77.912
二肽频数 + 亲疏水性倾向	96.787	98.594	97.791	96.386	94.779
一肽频数 + PSSMfeature	96.185	98.193	95.582	93.976	91.968
二肽频数 + PSSMfeature	96.787	98.394	98.193	96.185	94.779
亲疏水性倾向 + PSSMfeature	96.185	98.193	95.582	93.976	91.968
一肽频数 + 亲疏水性倾向 + PSSMfeature	95.984	98.193	95.984	94.578	92.369
二肽频数 + 亲疏水性倾向 + PSSMfeature	96.787	98.394	97.992	96.386	94.779

特征	mcc指标
特征	α	β	α/β	α+β
一肽频数	0.546	0.715	0.772	0.727
二肽频数	0.907	0.963	0.945	0.905
亲疏水性倾向	0.546	0.715	0.772	0.727
PSSMfeature	0.893	0.915	0.915	0.836
一肽频数 + 亲疏水性倾向	0.598	0.726	0.778	0.727
二肽频数 + 亲疏水性倾向	0.907	0.963	0.945	0.905
一肽频数 + PSSMfeature	0.890	0.952	0.888	0.842
二肽频数 + PSSMfeature	0.907	0.957	0.955	0.900
亲疏水性倾向 + PSSMfeature	0.890	0.952	0.888	0.842
一肽频数 + 亲疏水性倾向 + PSSMfeature	0.883	0.952	0.899	0.858
二肽频数 + 亲疏水性倾向 + PSSMfeature	0.908	0.957	0.949	0.905

蛋白质二级结构预测

（3）数据集 25PDB

特征	acc (%)
特征	α	β	α/β	α+β	all
一肽频数	79.857	77.286	84.220	69.456	55.409
二肽频数	72.744	72.983	78.243	64.854	44.411
亲疏水性倾向	79.857	77.286	84.220	69.456	55.409
PSSMfeature	84.280	82.128	85.774	71.907	62.044
一肽频数 + 亲疏水性倾向	79.378	76.868	84.280	69.456	54.991
二肽频数 + 亲疏水性倾向	72.684	72.863	78.063	64.854	44.232
一肽频数 + PSSMfeature	83.981	82.487	85.475	72.624	62.283
二肽频数 + PSSMfeature	79.677	76.808	79.319	67.005	51.405
亲疏水性倾向 + PSSMfeature	83.981	82.487	85.475	72.624	62.283
一肽频数 + 亲疏水性倾向 + PSSMfeature	84.041	82.307	85.415	72.325	62.044
二肽频数 + 亲疏水性倾向 + PSSMfeature	80.155	77.346	79.259	67.364	52.062

特征	mcc指标
特征	α	β	α/β	α+β
一肽频数	0.526	0.420	0.496	0.173
二肽频数	0.355	0.305	0.308	0.049
亲疏水性倾向	0.526	0.420	0.496	0.173
PSSMfeature	0.624	0.535	0.549	0.263
一肽频数 + 亲疏水性倾向	0.515	0.409	0.498	0.173
二肽频数 + 亲疏水性倾向	0.352	0.303	0.302	0.051
一肽频数 + PSSMfeature	0.612	0.549	0.540	0.280
二肽频数 + PSSMfeature	0.501	0.404	0.353	0.129
亲疏水性倾向 + PSSMfeature	0.612	0.549	0.540	0.280
一肽频数 + 亲疏水性倾向 + PSSMfeature	0.611	0.546	0.536	0.275
二肽频数 + 亲疏水性倾向 + PSSMfeature	0.512	0.416	0.352	0.142

蛋白质二级结构预测

（4）总结

对于数据集z277和数据集z498（数据集蛋白质相似度较高），二肽频数的效果优于一肽频数，且特征属性内包含二肽频数（如二肽频数 + 亲疏水性倾向、二肽频数 + PSSMfeature和二肽频数 + 亲疏水性倾向 + PSSMfeature等）的模型表现均较优于其他。

对于数据集25PDB（数据集蛋白质相似度较低），二肽频数的表现劣于其他特征，特征属性为一肽频数 + PSSMfeature、一肽频数 + 亲疏水性倾向 + PSSMfeature和亲疏水性倾向 + PSSMfeature的效果均优于其他。

整体而言，在蛋白质残基统计信息（一肽频数和二肽频数）的基础上，物化属性（亲疏水性倾向）和进化信息（PSSM）可在一定程度上提高分类效果。

蛋白质二级结构预测

相关推荐