蛋白质二级结构预测

简介:

基于蛋白质残基统计信息(一肽频数和二肽频数)、物化属性(亲疏水性倾向)、进化信息(特异位置得分矩阵)进行特征表示,使用支持向量机算法构建蛋白质二级结构预测模型。

 

一、背景

1、蛋白质

(1)蛋白质组成

蛋白质由氨基酸组成。氨基酸序所包含的基本信息为组成蛋白质的氨基酸种类和氨基酸的排列顺序。如蛋白质S的氨基酸序列可以表示为:

蛋白质二级结构预测     

其中,AA 代表20种氨基酸,Ri 表示蛋白质第i个位置上的氨基酸,L为蛋白质序列长度。

(2)蛋白质结构

蛋白质有四级结构:一级结构、二级结构、三级结构和四级结构。一级结构即为氨基酸序列,二级结构分为α、β、α/β、α+β四种。

蛋白质的一级结构决定了蛋白质的高级结构,而疏水性残基决定了蛋白质二级结构的相对位置。

注:残基为氨基酸序列中的连续片段;

              疏水性:每个氨基酸均有疏水性指数和亲水性指数两个物化属性;

2、意义

蛋白质二级结构既可以应用于进一步预测蛋白质的三级结构和四级结构,又能应用于推测蛋白质的功能,因此蛋白质二级结构预测是蛋白质研究的重要组成部分。

3、难点

不同蛋白质的氨基酸序列长度不同,那么如何在保留尽可能多的氨基酸序列信息的同时将其转化为等长的特征数据?

 

二、特征表示

1、残基统计信息

残基,即为氨基酸序列的连续片段,可以由n(n>1)个氨基酸组成。

注:n=1时称为一肽,n=2时称为二肽,以此类推;

(1)一肽频数

由于氨基酸的种类是固定的,那么可以将每个蛋白质的20种氨基酸出现的频数表示为一个 1x20 维矩阵,即为该蛋白质的一肽频数。比如蛋白质S的氨基酸序列为:

S = A D C F H C E A H H G H

那么其一肽频数(YT)可以表示为:

YT = [ 2 2 1 1 1 1 4 0 0 0 0 0 0 0 0 0 0 0 0 0 ]

(2)二肽频数

一肽频数只考虑到单个氨基酸的频数信息,那么氨基酸与氨基酸之间的结合信息该如何表示呢?

同样的,可以统计蛋白质中任意两种氨基酸连续出现的频数,形成一个 20x20 维矩阵,即为该蛋白质的二肽频数。比如蛋白质S的二肽频数(ET)可以表示为:

蛋白质二级结构预测

2、物化属性

氨基酸有疏水性指数和亲水性指数两个物化属性。

比较氨基酸的亲水性指数和疏水性指数的大小可以判断蛋白质更偏向于亲水性所倾向的二级结构,还是更偏向于疏水性所倾向的二级结构。20种氨基酸的亲疏水性指数如下表所示:

氨基酸

A

D

C

E

F

G

H

I

K

L

疏水性

0.62

0.29

-0.9

-0.74

1.19

0.48

0.4

1.38

-1.5

1.06

亲水性

-0.5

-1

3

3

-2.5

0

-0.5

-1.8

3

-1.8

氨基酸

M

N

P

Q

R

S

T

V

W

Y

疏水性

0.64

-0.78

0.12

-0.85

-2.53

-0.18

-0.05

1.08

0.81

0.26

亲水性

-1.3

0.2

0

0.2

3

0.3

-0.4

-1.5

-3.4

-2.3

注:疏水性来自JACS, 1962, 84: 4240-4246. (C. Tanford);   

      亲水性来自PNAS, 1981, 78:3824-3828 .(T.P.Hopp & K.R.Woods);

根据蛋白质S的氨基酸序列,该蛋白质的亲水性指数和疏水性指数为:

蛋白质二级结构预测

那么结合蛋白质S的一肽频数(YT),将蛋白质S的亲疏水性倾向(Hydr)表示为:

蛋白质二级结构预测

3、进化信息

特异位置得分矩阵(简称PSSM),是一种基于蛋白质进化信息的打分矩阵,表示20种氨基酸在蛋白质中特定位置出现的概率。PSSM得分普遍表现为正或负整数,正分数表明给定的氨基酸替代发生的比预期的要频繁,负分数表明替代发生的比预期的要少。大的正分数通常表示关键的功能残基,普遍这可能是其他分子间相互作用所需的活性位点残基或残基。PSSM可以从PSI-BLAST(https://www.ebi.ac.uk)获得。由于PSSM是一个 L×20 维的矩阵(L为基酸序列长度),本文采用矩阵线性转化的方法,将PSSM转化为矩阵P具体如下:

蛋白质二级结构预测

矩阵P是20×20维矩阵,且P是对称矩阵,为了减少冗余的特征属性和计算,本文只采用P的下三角矩阵,并将其转化为一个1×210维矩阵PSSMfeature。

蛋白质二级结构预测

 

三、模型构建

1、数据

数据分为 3 个数据集,其中数据集 z277 和数据集 z498 的蛋白质相似度较高,数据集 25PDB 与其他两个数据集的蛋白质相似度较低。

注:数据集的蛋白质相似度高,即表示数据集内不同蛋白质的相似度高;

蛋白质二级结构预测

2、算法

数据集样本量较少,本文采用svc算法来训练模型。

(1)多分类问题

SVC主要针对二分类问题,目前将svc使用于多分类问题有2种解决方法。

蛋白质二级结构预测

1)一对多的分类

构造Q(Q为类别的个数)个二分类svc模型,每个模型划分一类样本。

比如第i(1≤i≤Q)个模型负责划分第m(1≤m≤Q)类样本,那么模型的结果只有两种:样本预测为第m类和样本预测为不是第m类。

2)一对一的分类

构造Q(Q-1)/2(Q为类别的个数)个二分类svc模型,每个模型划分任意两类样本。也就是说每一类样本点都要与剩下的Q-1类样本点一一进行比较。比如第i(1≤i≤Q(Q-1)/2)个模型负责划分第m(1≤m≤Q)类和第n(1≤n≤Q)类样本,那么模型的结果只有两种:样本预测为第m类和样本预测为第n类。

由于一对一的分类方法思路较清晰且保留了不同类之间的分割超平面,因此采用一对一的分类方法。

(2)核函数

目前常用的核函数有:线性核函数、多项式核函数、高斯核等。

1)线性核函数:主要用于线性可分的情况,参数少速度快。

2)多项式核函数:全局核函数,因此容易过拟合。

3)高斯核函数:局部核函数,对存在噪声的数据具有很好的抗干扰能力。

本文的数据集特征维度较高(20-610维),核函数选用linear kernel。

3、模型训练

(1)标准化

为了使不同的特征属性具有可比性,且提高模型的分类效果,对特征进行标准化。

(2)留一交叉验证

数据集样本量较小,训练集与测试集有限,采用留一交叉验证可较客观地评估模型的效果。

(3)模型评价

采用acc和mcc指标来评价模型的效果。acc和mcc指标的值越大,分类模型的效果越好。

 

          预测类别

Yes

No

 

实际分类

Yes

TP

FN

No

FP

TN

蛋白质二级结构预测

蛋白质二级结构预测

4、模型效果

(1)数据集 z277

                           特征

                                   acc (%)

α

β

α/β

α+β

all

一肽频数

84.838

87.004

85.560

82.671

70.036

二肽频数

89.892

97.112

93.863

90.975

85.921

亲疏水性倾向

84.838

87.004

85.560

82.671

70.036

PSSMfeature

91.336

93.502

92.058

88.448

82.671

一肽频数 + 亲疏水性倾向

84.838

88.087

86.643

85.560

72.563

二肽频数 + 亲疏水性倾向

89.892

97.112

93.863

91.697

86.282

一肽频数 + PSSMfeature

90.253

96.029

91.336

89.170

83.394

二肽频数 + PSSMfeature

92.058

96.029

94.224

90.975

86.643

亲疏水性倾向 + PSSMfeature

90.253

96.029

91.336

89.170

83.394

一肽频数 + 亲疏水性倾向+ PSSMfeature

89.170

95.668

92.419

89.531

83.394

二肽频数 + 亲疏水性倾向+ PSSMfeature

92.419

96.029

94.224

90.614

86.643

注:四个二级结构所对应的列为分类模型中每个结构类的识别率acc;   

all列(最后一列)为分类模型整体的识别率acc(四个结构类正确预测的比例);

                           特征

                              mcc指标

α

β

α/β

α +β

一肽频数

0.611

0.636

0.641

0.512

二肽频数

0.755

0.915

0.852

0.739

亲疏水性倾向

0.611

0.636

0.641

0.512

PSSMfeature

0.775

0.807

0.810

0.675

一肽频数 + 亲疏水性倾向

0.615

0.659

0.672

0.586

二肽频数 + 亲疏水性倾向

0.759

0.915

0.852

0.760

一肽频数 + PSSMfeature

0.752

0.883

0.794

0.687

二肽频数 + PSSMfeature

0.803

0.883

0.862

0.739

亲疏水性倾向 + PSSMfeature

0.752

0.883

0.794

0.687

一肽频数 + 亲疏水性倾向 + PSSMfeature

0.719

0.874

0.821

0.697

二肽频数 + 亲疏水性倾向 + PSSMfeature

0.810

0.883

0.862

0.730

注:四个二级结构所对应的列为分类模型中每个结构类的mcc指标;

                      蛋白质二级结构预测

(2)数据集 z498

                           特征

                                   acc (%)

α

β

α/β

α+β

all

一肽频数

82.731

89.357

91.165

89.759

76.506

二肽频数

96.787

98.594

97.791

96.386

94.779

亲疏水性倾向

82.731

89.357

91.165

89.759

76.506

PSSMfeature

96.386

96.787

96.586

93.775

91.767

一肽频数 + 亲疏水性倾向

84.940

89.759

91.365

89.759

77.912

二肽频数 + 亲疏水性倾向

96.787

98.594

97.791

96.386

94.779

一肽频数 + PSSMfeature

96.185

98.193

95.582

93.976

91.968

二肽频数 + PSSMfeature

96.787

98.394

98.193

96.185

94.779

亲疏水性倾向 + PSSMfeature

96.185

98.193

95.582

93.976

91.968

一肽频数 + 亲疏水性倾向 + PSSMfeature

95.984

98.193

95.984

94.578

92.369

二肽频数 + 亲疏水性倾向 + PSSMfeature

96.787

98.394

97.992

96.386

94.779

                           特征

                              mcc指标

α

β

α/β

α+β

一肽频数

0.546

0.715

0.772

0.727

二肽频数

0.907

0.963

0.945

0.905

亲疏水性倾向

0.546

0.715

0.772

0.727

PSSMfeature

0.893

0.915

0.915

0.836

一肽频数 + 亲疏水性倾向

0.598

0.726

0.778

0.727

二肽频数 + 亲疏水性倾向

0.907

0.963

0.945

0.905

一肽频数 + PSSMfeature

0.890

0.952

0.888

0.842

二肽频数 + PSSMfeature

0.907

0.957

0.955

0.900

亲疏水性倾向 + PSSMfeature

0.890

0.952

0.888

0.842

一肽频数 + 亲疏水性倾向 + PSSMfeature

0.883

0.952

0.899

0.858

二肽频数 + 亲疏水性倾向 + PSSMfeature

0.908

0.957

0.949

0.905

                     蛋白质二级结构预测

(3)数据集 25PDB

                           特征

                                   acc (%)

α

β

α/β

α+β

all

一肽频数

79.857

77.286

84.220

69.456

55.409

二肽频数

72.744

72.983

78.243

64.854

44.411

亲疏水性倾向

79.857

77.286

84.220

69.456

55.409

PSSMfeature

84.280

82.128

85.774

71.907

62.044

一肽频数 + 亲疏水性倾向

79.378

76.868

84.280

69.456

54.991

二肽频数 + 亲疏水性倾向

72.684

72.863

78.063

64.854

44.232

一肽频数 + PSSMfeature

83.981

82.487

85.475

72.624

62.283

二肽频数 + PSSMfeature

79.677

76.808

79.319

67.005

51.405

亲疏水性倾向 + PSSMfeature

83.981

82.487

85.475

72.624

62.283

一肽频数 + 亲疏水性倾向 + PSSMfeature

84.041

82.307

85.415

72.325

62.044

二肽频数 + 亲疏水性倾向 + PSSMfeature

80.155

77.346

79.259

67.364

52.062

                           特征

                              mcc指标

α

β

α/β

α+β

一肽频数

0.526

0.420

0.496

0.173

二肽频数

0.355

0.305

0.308

0.049

亲疏水性倾向

0.526

0.420

0.496

0.173

PSSMfeature

0.624

0.535

0.549

0.263

一肽频数 + 亲疏水性倾向

0.515

0.409

0.498

0.173

二肽频数 + 亲疏水性倾向

0.352

0.303

0.302

0.051

一肽频数 + PSSMfeature

0.612

0.549

0.540

0.280

二肽频数 + PSSMfeature

0.501

0.404

0.353

0.129

亲疏水性倾向 + PSSMfeature

0.612

0.549

0.540

0.280

一肽频数 + 亲疏水性倾向 + PSSMfeature

0.611

0.546

0.536

0.275

二肽频数 + 亲疏水性倾向 + PSSMfeature

0.512

0.416

0.352

0.142

                     蛋白质二级结构预测

(4)总结

对于数据集z277和数据集z498(数据集蛋白质相似度较高),二肽频数的效果优于一肽频数,且特征属性内包含二肽频数(如二肽频数 + 亲疏水性倾向、二肽频数 + PSSMfeature和二肽频数 + 亲疏水性倾向 + PSSMfeature等)的模型表现均较优于其他。

对于数据集25PDB(数据集蛋白质相似度较低),二肽频数的表现劣于其他特征,特征属性为一肽频数 + PSSMfeature、一肽频数 + 亲疏水性倾向 + PSSMfeature和亲疏水性倾向 + PSSMfeature的效果均优于其他。

整体而言,在蛋白质残基统计信息(一肽频数和二肽频数)的基础上,物化属性(亲疏水性倾向)和进化信息(PSSM)可在一定程度上提高分类效果。