其中含半胱氨酸的蛋白质在自然界中占有重要位置,但目前还没有具体地用于预测这些 蛋白质的结构有效方法。含半胱氨酸的蛋白质在氧化作用下,极有可能会形成二硫键这样具 有特殊结构特性的结构。如果目前有一种有效方法能够预测出二硫键的连接情况。那么就能 帮助我们预测含半胱氨酸的蛋白质的三维结构和功能信息。
二硫键连接模式预测的准确度目前并有特别有效的方法来准确预测,尤其是对于更高阶 的连接,例如蛋白质里有超过 3 个二硫键的情况。目前已经有很多方法尝试解决二硫键连接 模式的预测问题。
1。1 二硫键定义
二硫键又称为硫-硫键或者硫-硫桥,是一个会形成在两个硫醇基(-SH)之间的氧化共 价键[1]。形成的模式如下:
其中上面公式的 R 代表含碳的原子集合。 在蛋白质中,只有硫醇基之间会由于氧化反应形成二硫键。
1。2 二硫键预测问题
由于在二硫键在蛋白质结构和功能研究的重要性,已经有许多计算方法被开发出来用来 从蛋白质序列预测它们可能的连接方式。这个问题被称之为 DCP(disulfide connectivity prediction)[2],目的是为了确认哪几个二硫键对是在所有的可能的二硫键对中是正确的。也 就是来确定被氧化的半胱氨酸残基的正确连接方式。这个问题首先通过最大权值完美匹配进 行建模,其中最大权值完美匹配中的边相当于两个半胱氨酸残基,其通过蒙特卡罗模拟退 火、暴力搜索搜寻最优的匹配结果。其中两个半胱氨基酸残基在完美匹配中的边值可以使用 相关的预测方法进行解决。在此之后,很多工作都致力于这种方法来预测连接以提高准确 度。这个问题困难性在于当二硫键数目增加的时候,二硫键可能的连接模式可能的数目将会 以指数级别增长。
1。3 二硫键预测方法
目前已经有各种有效的方法,如 DISULFIND[3],SVM,GASVM,SS_SVR[4], FS_SVR[5],DBCP[6],DISLOCATE[7],DMC(DISLOCATE+MIp+iCOV)[8]等等。所有这些现
有的方法可以分为三类[7]:
(I) 二硫键接合状态预测; 文献综述
(II) 用半胱氨酸的二硫键键合态的先验知识的连接图案预测; (III) 预测二者二硫键键合状态和连通模式。
近年来,相当多的关注集中在开发基于机器学习方法的二硫键连接的预测,实验结果表 明,先进的机器学习算法是一个有希望的途径,可以进一步提高预测性能。这方面的进展集 中在两个方向:
(I)发展更强大的预测算法;例如神经网络(NN),支持向量机(SVM),核方法, 相关的基因突变分析,支持向量回归(SVR)和隐藏条件随机场(GRHCRFs),随机森林
(II)新的特征表示方法;传统的特征包括:位置特异性得分矩阵(PSSM),预测的 二级结构(PSS),相关突变(CM),半胱氨酸间隔距离。当然除了传统的全局和局部序 列衍生的方法,最近的研究已经发现一些新的方法:如蛋白质的亚细胞定位,相关突变,和
基于上下文的功能也可以提高精确度。此外,特征选择方法,如 Fisher 得分提出,克服了 机器学习中的高维问题,可以用来提高预测精度。
从上面的方法仅使用氨基酸序列信息进行预测,其他的研究趋势是使用同源建模技术, 其中的一些预测特征从模型化结构提取出来。在使用模拟方法时,可以提取半胱氨酸残基之 间空间距离作为特征。尽管这种方法是提前考虑蛋白质数据库的 3D 结构信息,这让找到好 的模板的可能性迅速增加,但是也可能在当前蛋白质数据库中无法找到足够匹配的蛋白质模 板。 HHblits高精度二硫键网络预测及其应用(3):http://www.youerw.com/jisuanji/lunwen_90662.html