首先,在结合位点的二级结构在某些方面是与非绑定位点不同的。例如,在ATP168中,线圈(C),螺旋(H)和链(E)的百分比分别为49.6%,26.0%和24.4%,明显与非绑定位点的41.7%,40.3%和18.0%不同。
其次,二级结构组成在绑定位点和非绑定位点都有具体组成模式,即是由两个基准数据集组成。以非绑定位点的二级结构组成为例,线圈(C),螺旋(H)和链(E)在ATP168的百分比为41.7%,40.3%和18.0%,明显与ATP227的41.7%,40.4%和17.0%不同。在两个数据集非绑定位点的二级结构组成几乎完全一样,最大的区别(如链)也仅仅是1%左右。
这两种结论可能部分解释为什么结合蛋白质二级结构信息有助于提高预测的准确性。
同时,我们也没有忽略一些理化特性[1,2],例如疏水性,β折叠,极性溶剂的潜力,静电荷等,已经影响蛋白质ATP结合位点。然而,我们的初步测试表明纳入这些理化特性到PSSM基础特征仅仅轻微的影响预测结果,甚至可能会恶化在某些情况下的预测性能。所以,在本文中,PSSM基础特征和蛋白质二级结构特征,结合对于根据我们的实验结果的蛋白质ATP结合位点预测最有效的和最强劲的预测,被选为作为预测模型的输入。
2.2.4 SVM集成
支持向量机(SVM)首次由Vapnik提出。近来,支持向量机已被广泛用于生物信息学理论,且已经取得了巨大的成功。不同的是,从传统模式识别技术(如神经网络)是以经验冒险的最小化和SVM最小化结构风险为基础的。此处,径向基函数被选为核函数。其他两个参数,即正规化参数Y和核宽度参数ð被优化,该优化依据于在LIBSVM软件上使用网格搜索策略五重交叉验证。
正如第一章所说的,下采样可能会在不同的类中有效的平衡样品,以及可以提供一个更小的训练集从而加快训练和预测的过程。然而,下采样也可能丢失非抽样的样品带来的信息,从而恶化一个预测模型的预测性能。为了规避这个问题,一个可行的途径是去梳理分类集成的下采样技术。更具体的说是,我们用下采样技术随机在多数类(非绑定类)中取样L次(在以前的研究中,L=5),然后获得L个主要的训练子集。这L个主要的训练子集加上少数的培训设置,每一个组成个L个新的数据集。在这个预测阶段,对于给定的蛋白质的一个剩余物,它属于绑定剩余物的概率通过每一个L向量支持机被预测。最后,属于结合位点的剩余物的L的概率是通过一个适当的分类集成战略被融合的。这样做,一方面,来自下采样的优点,例如样品平衡被保留了;另一方面,多次抽样在一定程度上减少了由于下采样引起的信息丢失,因此可能会提供更好的预测性能。
至于分类集成,根据基分类的输出类型分为3个层次(层次1,层次2,层次3)。在层次1分类集成,每一个基分类输出一个抽象标签。而层次2分类集成,每一个基分类输出一个排名标签的子集。在层次3分类集成,每一个基分类输出一个与每一个标签的可能性是多大的测量向量。实际上,层次1和层次2会被当作特殊的层次3.三个层次的详情请参照[13]。在本研究中,蛋白质的剩余物会被预测,每一个向量支持机(基分类)输出一个多文向量,其中的元素包括测量剩余物是绑定点还是非绑定点的概率。因此,这些多支持向量机被定义为层次3.
让 变成一个类的集合, 成为L基分类(在本文中的支持向量机的集合。对于特征向量x,每一个基分类 输出一个C文向量( ,此处的 表示测量x被分为j类( )的概率。因此,对于输入特征向量x的L基分类的输出组成一个决定文件,表示为DP(X),如下:
(2) 蛋白质-ATP绑定位点预测研究+文献综述(4):http://www.youerw.com/yixue/lunwen_6747.html