预测蛋白质-配体绑定残基是很困难的。传统的解决途径是实验[3],但是用实验方法判别蛋白质-配体绑定残基是十分昂贵和耗时的,因此,基于智能计算[1]的方法成为热门的研究手段。

目前,存在大量的用于蛋白质-配体绑定残基的机器学习算法,可以根据提取的特征,将这些方法分为三种类型:基于结构的方法[10-12]、基于序列的方法[13-14]以及基于结构和序列的混合方法[15-16]。77322

初期阶段,研究人员多数使用基于结构的方法[3]。文献[10]提出了PPSITE方法,基于氨基酸的物理化学性质,使用氢键、疏水性和范德华相互作用作为蛋白质-蛋白质接口的特征。RoyA。等人结合蛋白质的3D结构信息,使用COFACTOR[11]来定位配体的绑定位置。由于序列差异较大的蛋白质序列可能有类似的三维结构,且蛋白质的结构信息十分复杂,因而这种基于结构的方法有相对的局限性[3]。

之后,研究人员发现了另一种思路,从蛋白质的序列出发,进行蛋白质-配体的绑定残基预测。例如,MoRFpred[13]方法采用新颖的设计,通过序列比对生成每个残基的进化信息,用支持向量机(SVM)预测融合,它使用一个自定义设计的序列衍生的功能,用于分子识别。LiuB[14]等人使用PSI-BLAST工具,经过蛋白质的多序列对比,通过频率分布提取出蛋白质的进化信息,以完成蛋白质同源性检测工作。这种基于序列的方法简单实用,实验效果也很明显。论文网

最近,结合结构和序列的混合方法受到研究人员的密切关注。文献[9]中的HemeBind方法整合了结构和序列的信息,预测血红素绑定残基。ConSurf[15]和ConSeq[15]是两个分别从蛋白质的结构和序列使用经验贝叶斯预测的计算氨基酸进化信息的方法。这种混合的方法同时考虑了蛋白质的序列和结构,方法的过程复杂,但相比于序列的方法,性能提升并不显著。

最近几年,在蛋白质-ATP绑定残基预测方面,已有研究人员发现了几种有效的预测方法。其中,ATPint[17]是第一个用于蛋白质-ATP绑定残基预测的方法。ATPint基于一个168个非冗余绑定蛋白质序列,提取基于序列的位置特异性得分矩阵(PSSM),作为训练时的特征向量。之后,Kurgan等人开发了ATPsite[18]和NsitePred[19]。ATPsite使用序列的进化信息和蛋白质的二级结构来预测蛋白质-ATP绑定残基,NsitePred可以标定多种核苷酸,如腺嘌呤核糖核苷酸(AMP),二磷酸腺苷(ADP)等。这两种方法基于一个更大的由227个非冗余绑定蛋白质序列,因此预测结果更加准确。

由于每条蛋白质序列中,绑定残基只占序列的一小部分,大部分是非绑定残基,即绑定残基(正类样本)的数量远远低于非绑定残基(负类样本),因此蛋白质-ATP绑定残基预测是一个非平衡的二分类问题,预测结果会偏向于负类。基于这个原因,最近,YuDJ等人开发了另一种基于序列和结构混合的方法,称为TargetATP[8][20]。TargetATP使用了随机下采样,从负类样本中下采样以达到与正类样本点的数目相平衡,应用AdaBoost分类器集成技术,预测性能比其他几种更高。

上一篇:交通标志检测和识别国内外研究现状
下一篇:振动式风力发电机风力机及风能采集研究现状

公路安全评价宏观预测道...

股票价格趋势的预测方法国内外研究现状

预测焊焊接残余应力和变形国内外研究现状

转录组与蛋白质研究现状进展

话务量预测模型国内外研究现状

灰色系统理论交通事故预测国内外研究现状

风速时间序列预测的研究意义及研究现状

我国风险投资的发展现状问题及对策分析

张洁小说《无字》中的女性意识

新課改下小學语文洧效阅...

麦秸秆还田和沼液灌溉对...

网络语言“XX体”研究

互联网教育”变革路径研究进展【7972字】

老年2型糖尿病患者运动疗...

ASP.net+sqlserver企业设备管理系统设计与开发

安康汉江网讯

LiMn1-xFexPO4正极材料合成及充放电性能研究