4。4 预测 21
4。 4 。 1 评价指标 22
4。 4 。 2 阈值 T 的选取 25
5 实验 26
5。 1 k 重交叉验证 26
5。 2 1: n 下采样 26
5。3 实验结果 26
5。3。1 在 ATP168 、ATP227 上交叉验证的结果 26
5。 3。 2 在独立测试集 ATP 17 上的验证结果 28
5。 3 。 3 与其它分类器的对比 30
结论 32
致谢 33
参考文献 34
附录 36
1 绪论
1。1 研究背景
上世纪九十年代初期,科学家提出并实施了基因组计划,对人类的 DNA 序列进 行测定,研究人类的遗传信息,以进一步认识人体各个组织器官的结构和功能。但是, 生物功能的主要执行者和直接体现者是蛋白质,即使知道 DNA 全序列也不能完全了 解基因表达的性状,所以基因组计划存在一定的局限性[2]。
在这样的背景下,在九十年代中期,科学家又提出了蛋白质组学的概念[2]。蛋白 质组学研究蛋白质的特征,包括组成结构、表达水平、翻译后的修饰和蛋白质之间的 相互作用等,发现蛋白质的结构和功能[3]。
蛋白质由不同的氨基酸序列组成,经过脱水缩合形成肽链,这些氨基酸序列称为 残基。不同的肽链结构决定了蛋白质的不同。通常情况下,蛋白质需要和其他生物分 子相互作用,从而发挥蛋白质的功能[4]。这个相互作用的过程称为绑定,蛋白质所绑 定的生物分子称为配体,和配体绑定的残基称为绑定残基。这些配体中有金属离子(例如 Ca2)、小分子(例如 ATP[8][17-20]和血红素[9])和大分子(例如核酸[7]和蛋白质[10])等等。绑定过程普遍存在于生命活动中[4]。 三磷酸腺苷(ATP)就是这样的一种配体。ATP 是一种重要的生物细胞分子,通过
和蛋白质残基发生水解反应来释放能量,为生物体的活动提供能量。蛋白质和 ATP 绑定通常只发生在蛋白质序列的特定位置区域内,这些绑定位点需要大量的生物学实 验才能测定出来。众所周知的是,生物学实验具有周期长、成本高等特点,因而已经 标定的绑定位点数据只占目前已测定的蛋白质序列结构数据的很小一部分,而大量的 蛋白质序列的绑定点仍有待标定,如果仍然采用生物信息学实验方式标定,则需要耗 费大量的时间和金钱,相对于飞速增长的蛋白质数据而言,简直成为一个不可能完成 的任务,因此,必须考虑从新的渠道入手解决大量数据未标定的问题。就目前来说, 应用机器学习和统计分析的知识,使用计算机解决这个问题成为可能。
1。2 国内外研究现状
1。3 研究意义
在基于序列的方法中,前人研究的分类问题可以理解为 0,1 二值逻辑,对于一条 氨基酸组成的蛋白质序列,对每个残基应用滑动窗口时,相邻的残基模式具有一定的 相似性,但是却可能属于不同的类别,我们认为这样建立的模型未必能反映问题的本 质特征。基于这个考虑,我们考虑使用支持向量回归(SVR)的方法,用残基特征作 为输入,将属于正类(或负类)的置信度作为预测函数的输出,并根据一定的原则将 函数的连续输出进行离散化,作为最终输出的预测结果。