【氨基酸组分】米糠油氨基酸组分
V o l . 25 N o. 1第25卷 第1期天津师范大学学报(自然科学版)
2005年3月Journal of T ianjin N o r m al U niversity (N atural Science Editi on ) M ar . 2005
文章编号:167121114(2005) 0120001205
氨基酸主成分分析法及在蛋白质结构预测中的应用
谢军民, 杜奇石, 王树青, 李大鹏, 孙 浩
(天津师范大学生物信息与药物开发研究所, 天津300074)
摘要:用化学计量学的主成分分析(PCA ) 法计算和分析了4种类型(Α型、 +Β型) Β型、ΑΒ型和Α
204个蛋白质的20种氨基酸在主成分中的贡献. 研究发现, 20种氨基酸在4种类型蛋白质的主成分中的贡献有明显的不同. 氨基酸在主成分中的贡献体现了4, 有深刻的物理和化学的内在原因. , 对4种类型的蛋白质都取得了满意的结果. 使用LOO (4率分别为:76. 9%(Α型) 、96. (82. , 204个蛋白质的整体) 正确率为84. , . 关键词:; (PCA ) ; 生物信息学中图分类号:71; 517 文献标识码:A
Am i no Ac id Pr i nc ipa l Com ponen t Ana lysis for Prote i n Structura l Study and Its Appl ica tion i n Structure Pred iction
X IE J un 2m in , DU Q i 2sh i , W A N G S hu 2qing , L I D a 2p eng , SUN H ao
(Institute of B i o info r m atics and D rug D iscovery , T ianjin N o r m al U niversity , T ianjin 300074, Ch ina )
Abstract :In th is research w e in troduce the am ino acid PCA (p rinci pal com ponen t analysis ) m ethod in p ro 2
tein structu re study . P ro tein structu ral classes are fuzzy sets and the data of am ino acid sequences m ay con 2tain uncertain facto rs and erro rs from experi m en ts . Am ino acid PCA m ethod ab stracts p rinci pal facto rs from data base and m in i m izes the erro rs in PDB sequence data . Am ino acid PCA m ethod gives better struc 2tu re p redicti on resu lts than the m ethods based on am ino acid com po siti on s . T h is m ethod is app lied in the
, Β, Α +Β) . T he p redicti on accu racy are study of 204p ro tein s in 4classes of p ro tein structu res (ΑΒand Α
76. 9%fo r Α2 +Β2p ro tein , 96. 7%fo r Β2p ro tein , 82. 2%fo r ΑΒ2p ro tein and 78. 3%fo r Αp ro tein , and the overall p redicti on accu racy fo r 204p ro tein s is 84. 3%, h igher than the resu lts of si m p le distance m ethod and Euclidean distance m ethod .
Key words :am ino acids ; p ro tein structu re ; p rinci pal com ponen t analysis (PCA ) ; b i o info r m atics
蛋白质的生物功能是由其特定的结构决定的, 在后基因组研究中, 蛋白质结构的实验测定和理论预测是两个重点课题. 30年前, C . G . A nfin sen [1]提出的蛋白质的三维结构是由氨基酸序列决定的论断已被普遍接受, 为蛋白质的结构预测奠定了理论基础. 由于蛋白质一级结构(氨基酸序列) 的实验测定和通过DNA 密码的理论预测的数量与日俱增, 蛋白质数据库中的数据量急剧膨胀[2]. 另一方面, 蛋白质三维结构的试验测定的速度慢、花费大, 目前蛋白质的立体结构的理论预测的准确率很低, 这些均
收稿日期:2003209205
基金项目:国家自然科学基金资助项目(20373048) ; 天津市科委基础科学面上资助项目(023618211) 第一作者:谢军民(1974-) , 男, 河南省南阳人, 硕士研究生, 主要从事计算化学方面的研究. 通讯作者:杜奇石(1945-) , 男, 陕西省西安人, 教授, 博士.
・2・天津师范大学学报(自然科学版) 2005年3月
[3]
成为生物信息学研究的“瓶颈”. 因此提高从氨基酸序列预测蛋白质的空间结构的准确率是蛋白质结构研究的关键步骤[4].
当前蛋白质结构的理论预测方法分为两大类. 一类是根据经验势能参数的自由能最小化方法[5~10], 该方法假定蛋白质的立体结构主要是由邻近的氨基酸残基的相互作用决定的, 通过分子动力学或其他方法的计算, 找出自由能最低的构型. 由于多肽链可能采取的构象数目十分巨大, 以原子为单位, 通过构型优化计算的预测方法遇到了很大困难[3]. 另一类理论判断方法从结构已知的蛋白质分子的氨基酸组成出发, 进行统计数学的分析和归纳, 制定出一套规则, 结构[11~16]. [20, 大量参数, , 使得其应用范围受到限制.
[2]
Chou 和Fas m an 创立的以氨基酸的百分组成为基础的同模预测方法, 以概念清晰、方法简单、结果惟一的优点在蛋白质结构预测中占主导地位. Chou 2Fas m an 方法首先计算训练集的蛋白质的平均氨基酸的百分组成(标准蛋白质) , 进而构造各种统计分析量, 如简单距离、欧几里德距离、先进的几何距离和协方差区分量等, 再把未知蛋白质的氨基酸百分组成代入统计分析量, 计算未知蛋白质与标准蛋白质的“距离”, 判断未知蛋白质所属的类型.
本文提出的氨基酸主成分分析法属于Chou 2Fas m an 方法的一个分支, 它以20种氨基酸在蛋白质中的百分组成为基础, 应用化学计量学(chem o 2m etrics ) 的主成分分析法(PCA , p rinci p al com po 2nen t analysis ) 计算20种氨基酸在主成分里的贡献, 进而预测未知蛋白质的结构类型. 氨基酸主成分分析法突破了以往统计方法中使用的在20维氨基酸空间中的“距离”的概念, 是统计分析法的一个发展. 氨基酸主成分分析法体现了在一种类型的蛋白质中氨基酸间的相互制约关系, 有利于寻找其物理和化学的内在因素.
x Ν, k , 1
x Ν, k , 式(2) 中x Ν, k , i 是子集S Ν的第k 个蛋白质的第i 个氨
基酸出现的百分数频率, 遵守下面的归一化条件,
20
∑x Ν, k , i =1
i =1
…
X Ν, k =
x Ν, k , 2
, k =1, 2, …, n Ν; Ν=1, 2, …, m (2)
(3)
θΝ, 20x
θΝ, i S Ν中所有蛋白质的相应氨基酸它的分量x 组成的平均值,
θΝ, i =x
n Νk =1
∑x
n Ν
…
子集S Ν的蛋白质的百分组成构成矩阵[X Ν]n Ν×20, n Ν
是子集中蛋白质的个数. 每个子集S Ν有一个标准向ϖΝ() , S Ν的量X “标准蛋白Ν, Ν, 2x (4) X Ν=
Ν, k , i
, i =1, 2, …, 20(5)
我们按以下3种方式构造子集S Ν的协方差矩阵C Ν
() ()
和数量矩阵D Ν1和D Ν2,
θΝ, i ][x Ν, k , j -x θΝ, j ], c Ν, i , j =[x Ν, k , i -x n Ν-1k =1
(6) i , j =1, 2, …, 20
式(6) 给出的是经过中心化处理的协方差矩阵, C Ν是一个20×20的方阵, 表达了子集内蛋白质的氨基酸组成对平均值的离散程度. 我们还可以构造以
()
下2种非中心化的数量矩阵D Ν1.
∑
n Ν
d Ν, i , j =
(1)
∑x
k =1
n Ν
Ν, k , i x Ν, k , j , i , j =1, 2, …, 20(7)
和D Ν2,
()
20
d
(2)
Ν, i , j
=
∑x
k =1
Ν, i , k x Ν, j , k , i , j =1, 2, …, n Ν(8)
1 氨基酸主成分分析法
设N 个已知蛋白质组成集合S , 它是由m 个子集S Ν构成的并集,
(1) S =S 1∪S 2∪S 3…∪S m
每个子集S Ν对应于一个蛋白质类, 含n Ν个蛋白质,
(1)
数量矩阵D Ν是以氨基酸为变量的20×20的对称
()
方阵, 矩阵D Ν2是以蛋白质样品为变量的n Ν×n Ν的
() ()
对称方阵. D Ν1和D Ν2的差别仅在矩阵乘法的顺序.
主成分分析法的下一步是解协方差矩阵和数量矩阵的本征方程. 我们可以得到3个本征方程, 它们的解有不同的含义. 协方差矩阵C Ν的本征方程为
(9) C ΝU =ΚU
有N =
∑n .
ΝΝ
每个蛋白质是20维氨基酸空间的一
个向量X Ν, k , 或一个点,
数量矩阵D Ν1的本征方程为
(1)
(10) D ΝV =ΡV
()
数量矩阵D Ν2的本征方程为
()
(11) D Ν2W =ΞW
式(9) , (10) 和(11) 中的U , V , W 是对应矩阵的本征
()
第25卷 第1期 谢军民, 等:氨基酸主成分分析法及在蛋白质结构预测中的应用
()
()
・3・
向量u i , Μ, Ρ, Ξ是对角矩i , w i 构成的矩阵, 本征值Κ阵, 它们的对角元Κi , Ρi , Ξi 是对应于本征向量u i , Μi , w i 的本征值. 在主成分分析方法里, 有较大本征值的本征向量称为主成分. 第i 个氨基酸在主成分中的贡献可以用下式计算
f
Ν, i
=
∑u
k =1p Νk =1
p Ν
i , k
u i , k Κk , i =1, 2, …, 20
i =1, 2, …, 20
(12) (13)
g Ν, i =
∑ΜΜΡ,
i , k i , k
k
式中p Ν是主成分的个数, f Ν, i 是氨基酸i 围绕标准蛋ϖΝ的离散度的度量, g Ν, i 是氨基酸i 在数量矩阵白质X (1) () D Ν中的贡献. 第i 个蛋白质X Ν, i 对数量矩阵D Ν2的贡献由下式计算:
h Ν, i =
p Ν
量矩阵D Α1, D Α2的20个最大本征值. 由于归一化
条件式(5) 的限制, 20个氨基酸组成间有一个约束
(1)
条件, 20维的矩阵C Α和D Α的本征方程有19个正
()
本征值和一个零本征值. 矩阵D Α2的维数n Α=52,
() ()
但也有19个正本征值, 因为矩阵D Α2和D Α1的秩
() ()
是相同的. 在表2中发现, 矩阵D Α2与D Α1的本征
(2) (1)
值完全相同, 这是因为D Α和D Α是由同一组数据得来的. C Α的本征值由大到小依次降低, 相差幅度
() ()
不大, 说明有多个主成分, 但D Α1和D Α2的最大本, 说明有一个很大的主成分.
(1)
2Α, 数量矩阵D Α
(2)
Α#
i , k
C Α
∑w
k =1
(1)
D (1) i , k i =Ν()
.
2 计算结果和分析
为了便于对比, 我们采用文献[2]的蛋白质训练集, 从蛋白质数据库(PDB B ank ) 中选取了4种类型共204个蛋白质(Α型52个, Β型61个, Α Β型45个, Α+Β型46个) , 蛋白质的代码参见文献[2]. 根据式(4) 和式(5) 计算各子集的标准蛋白质的氨基酸组成, 结果列于表1. 表1显示Α型和Β型的标准蛋白质的氨基酸组成有较大差异, 但Α Β型和Α+Β型的组成十分相似. 说明, 仅仅依靠氨基酸的组成区分Α Β型和Α+Β型蛋白质有较大的难度.
表1 Α型, Β型, Α Β型和Α+Β型蛋白质的
20种氨基酸的平均百分组成
氨基酸
A C D E F G H I K L M N P Q R S T V W 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. [***********][1**********]0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. [***********][***********][***********][***********][***********]502023. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. [***********][***********][***********][***********][***********]232233. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. [***********][***********][***********][***********][***********]23223型
[***********][***********][***********][***********][***********]285910. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 型
[***********][***********][***********][***********][***********]40407 型
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. [***********][***********][***********][***********][***********]00311+型0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. [***********][***********][***********][***********][***********]07242按式(12) 和式(13) 计算, 图1给出了Α型蛋白质的20种氨基酸对主成分的贡献. 为便于对比, 图1同时给出了Α型蛋白质的20种氨基酸的平均组成. 在图1(b ) 的计算中我们使用了协方差矩阵C Α的全部19个主成分, 在图1(c ) 的计算中仅使用
(1)
了数量矩阵D Α的最大主成分. 对比图1(a ) 和图1(b ) 发现, 有较大组分的氨基酸一般有较大的离散度, 如氨基酸A 和L , 但有一些氨基酸的离散度明显偏低, 如图1(a ) 的氨基酸D , G 和S 的组分都不算低, 但在图1(b ) 中的离散度却很小, 说明在Α型蛋白质中它们的组分变化较小. 从氨基酸贡献的大小顺序上讲, 图1(c ) 与图1(a ) 完全一致, 但相对幅度有较大差异. 蛋白质的分类是模糊集, 在测定氨基酸序列时含有误差. 图1(a ) 的数据含有上述不确定因素带来的误差, 在图1(c ) 的计算中因仅取了最大的一个或几个主成分, 避免了不确定因素带来的干扰.
表2为52个Α型蛋白质的协方差矩阵C Α和数
・4・天津师范大学学报(自然科学版)
p Ν
2005年3月
h Ν, x =
∑w
k =1
x , k
w
x , k
=1, 2, …, m Ξk , Ν(15)
式中的w x , k 是解包括未知蛋白质x 在内的n Ν+1阶
()
数量矩阵D Α2的本征方程(11) 得到的本征向量w k 中的未知蛋白质x 的组分, Ξk 是本征值. 预测规则由判断函数式(16) 给出,
(16) Νx =m ax {h 1, x , h 2, x , …, h m , x }
即未知蛋白质x 属于做出了最大贡献的子集S Ν. 式(15) 中的p Ν是主成分的个数, 选择过多的主成分可能会带入干扰误差, 太少的主成分可能会丢失有用信息. , 取3. Α1bcfA 1cnt 11gdy _1h lb _1ilk _1m az _1m ls _1rhgA 1spgB 1sra _1vls _2fal _2hbg _3sdhA 1all A 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. [***********][***********][***********][***********]94492466(a ) Α型蛋白质中20种氨基酸的平均组成; (b ) 20种氨基酸对于平均组成的离散分布;
(1) (c ) 20种氨基酸在数量矩阵D Α的最大主成分中的贡献.
图1 Α型蛋白质的20种氨基酸对主成分的贡献
矩阵D Α1是以氨基酸为变量的数量矩阵. 矩阵
(2)
D Α是以蛋白质样品为变量的数量矩阵, 它的主成分代表的是各蛋白质样品对数量矩阵的贡献. 与数
(1) (2)
量矩阵D Α一样, D Α有一个很大的主成分, 52个Α型蛋白质在最大主成分里的贡献列于表3. 将表3中的数据经归一化处理, 每个蛋白质的平均贡献是1 52=0. 01923. 子集S Α的52个蛋白质的贡献分布在0. 01471~0. 02289之间. 蛋白质样品对主成分的贡献可以看作是它作为子集成员的“资格证”, 如果把一个未知类型的蛋白质加入子集S Α并计算它在主成分中的贡献, 我们可以根据它的贡献的大小判断未知蛋白质是否属于该类型. 为此我们构造判断未知蛋白质x 的判断量式(15) :
()
ibeA 1ithA 2gdm _2lhb _1hds B 1m yt _1o sa _1sctA 1spgA 1fsl A 1h l m _1lh t _1outA 1outB 1pbxA 1pbxB 1sctB 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. [***********][***********][***********][***********][1**********]962asr _1babA 1bgc _1bgeA 1em y _1hdaB 1hds A 1ibeB 1m bs _2mm 1_2pghA 2pghB 1hdaA 1h r m _1m ygA 1vlk _
0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. [***********][***********][1**********]5
[***********][1**********]595
把主成分分析法用于4种类型的204个蛋白质, 应用“留一个检测法”(LOO :leave one ou t ) 检验预测效果, 并与以氨基酸组成为基础的简单距离法和欧几里德距离法[2]比较, 结果见表4. 由表4可知, 主成分分析法对4种类型的蛋白质的预测都取得了满意的结果, 正确率分别为76. 9%(Α型) , 96. 7%(Β型) , 82. 2%(Α Β型) 和78. 3%(Α+Β型) , 204个蛋白质的整体正确率为84. 3%, 高于以氨基酸组成为基础的简单距离法(72%) 和欧几里德距离法(71%) .
表4 氨基酸主成分分析法预测效果与简单距离法和欧几里德距离法的对比3
M ethods Si m p le D istance Euclidean D istance PCA A ccuracy E rro r
%A ccuracy E rro r %A ccuracy E rro r 2p ro teins Α
(52) 14
73137512Β2p ro teins
(61) 7889852 ΑΒ2p ro teins
(45) 20
5620568+Β2p ro teins Α
(46) 16
65176310To tal (204) 5772597132 3使用“留一个”检测法(LOO :leave one out ) .
第25卷 第1期 谢军民, 等:氨基酸主成分分析法及在蛋白质结构预测中的应用・5・
4 结论
蛋白质的4种结构分类是按照二级结构单元(Α螺旋和Β带等) 的数量划分的, 如Α型蛋白质的组成为Α>15%和Β10%.这种结构分类法在数学上属于Α
模糊集. 在蛋白质的氨基酸序列的实验测定中, 由于头、尾部分的氨基酸难于确定, 原始数据不可避免地含有误差. 主成分分析法(PCA ) 是化学计量学的重要方法, 该方法的特点是把原变量(氨基酸或蛋白质样品) 组合成相互正交的线性独立的向量, 按特征值的大小确定主成分. 把主成分分析法用于蛋白质, , 类型中, 20, 氨基酸围绕平均组成的离散程度也不同. 氨基酸在主成分里的这些不同贡献反映了特定蛋白质类型的结构特征. 把氨基酸主成分分析法应用于蛋白质结构类型的预测, 在选用的Α型、 +Β型Β型、ΑΒ型和Α
的204个蛋白质中都取得了明显好于简单距离法和欧几里德距离法的结果, 整体准确率达到了84. 3%.
在这项研究里, 我们仅把主成分分析预测法用
()
于以蛋白质样品为变量的数量矩阵D Α2, 该方法同
(1)
样可用于以氨基酸为变量的数量矩阵D Α和协方差矩阵C Ν. 后者将在以后的研究中报道. 参考文献:
[1] A nfinsen C G . P rinci p les that govern fo lding chains [J ]. Sci 2
ence , 1973, 181:223.
[2] Bairoch A , A pw eiler R . T he S W ISS 2PRO T p ro tein sequence
data bank and its supp lem ent T rE M BL [J ]. N ucleic A cids R e 2search , 1997, 25:31-36.
[3] Chou K C . P redicti on of p ro tein structural class and subcellu 2
lar locati ons [J ]. Current P ro tein and Pep tide Science , 2000, 1:171-208.
[4] Sondek J , Sho rtle D . A ccomodati on of single am ino acid inser 2
ti ons by the native state of staphylococcal nuclease [J ]. P ro 2teins :Structure , Functi on and Genetics , 1990, 7:299-305. [5] Seheraga H A . Confo r m ati onal analysis of po lypep tides and
p ro teins fo r the study of p ro tein fo lding , mo lecular recogni 2
ti on , and mo lecular design [J ]. J P ro t Chem , 1987, 6:61-80.
[6] W einer P K , Ko ll m an P A . A ssisted model building w ith en 2
ergy refinem ent :A general p rogram fo r modeling mo lecules and their interacti ons[J]. J Comp Chem , 1981, 2:287-303. [7] Gilson M K , Honig B . Energetics of charge 2charge interac 2
ti ons in p ro teins [J ]. P ro teins Struct Funct and Genet , 1988:3:32-52.
[8] M cCammon J A . , W ong C F , L ypand T P . P ro tein stability
and functi on[A]. Fas m an G D. P redicti on of p ro tein structure and the p rinci p les of p ro tein confo r m ati on [C ]. N ew Yo rk 😛 lenum P ress , 1989. 149-159.
[9] M ackay D H J , C ro ss A J , A T . T he ro le of energy
m ini m on in of bi omo lecular system s [an G . of ro tein structure and the r m ati on [C ]. N ew Yo rk 😛 lenum P , 1989. 317-358.
[10] Karp lus M , Shakhnovich E . T heo retical studies of ther mo 2
dynam ics and dynam ics [A ]. C reigh ton T E . P ro tein Fo lding [C ]. N ew Yo rk :F reem an , 1992. 127-195.
[11] Chou P Y , Fas m an G D . P redicti on of p ro tein confo r m ati on
[J ]. B i ochem istry , 1974, 13:222-245.
[12] Chou P Y , Fas m an G D . P redicti on of secondary structure of
p ro teins from am ino acid sequence [J ]. A dv Enrymo l R elat Subj B i ochem , 1978, 47:45-148.
[13] L i m V I . Structural p rinci p les of globular p ro tein secondary
structure [J ]. J M o l B i o l , 1974, 88:857-872.
[14] Gam ier J , O sgutho rpe D J , Robson B . A nalysis of the accu 2
racy and i m p li 2cati ons of si m p le m ethods fo r p redicting the secondary structure of globular p ro teins [J ]. J M o l B i o l , 1978, 120:97-120.
[15] O rengo C A , Jones D T , T ho rnton J M . P ro tein superfam i 2
lies and dom ain superfo lds [J ]. N ature , 1994, 372:631-634.
[16] Jones D T , T aylo rW R , T ho rnton J M . A model recogniti on
app roach to the p redicti on of all 2helical m em pane p ro tein structure and topo logy [J ]. B i ochem istry , 1994, 33:3038-3049.
[17] 邱建丁, 梁汝萍, 邹小勇, 等. 应用连续小波变换预测蛋白质
的二级结构[J ]. 化学学报, 2003, 61(5) :748.
[18] 季清洲, 曾卫华, 陈巧林, 等. 金属硫蛋白家族内的结构域拼
接[J ]. 化学学报, 2001, 59(10) :1769.
[19] 何毓蕃, 汪尔康. 现场扫描隧道显微镜研究有机相中的蛋白
质结构[J]. 化学学报, 1997, 55(8) :801-805.
[20] M uskal S M , K i m S H . P redicting p ro tein secondary struc 2
ture content :A tandem neural netwo rk app roach [J ]. J M o l B i o l , 1992, 225:713-727.