基于回归策略的蛋白质残基分类算法研究(3)

蛋白质的氨基酸残基分类的研究具有重要的意义：氨基酸残基序列决定了蛋白质的结构，而结构决定了蛋白质的生物学功能。给出一个蛋白质序列，通过机器学习和模式识别建立起来的模型，预测该蛋白质序列里的每个残基是否属于 ATP 绑定残基，这是个二分类问题。研究这个问题，对于人类认识蛋白质结构和功能，对于药物设计与制造和全人类的健康，都具有非常重要的意义。

1。4 本文组织结构

对于蛋白质-配体绑定残基的预测问题，本文基于回归的思想，设计了支持向量回归与集成技术相结合的分类器，从而完成蛋白质-ATP 绑定残基的预测问题。

本文组织结构安排如下：第一章，首先介绍了课题的研究背景，引出了蛋白质组学中的相关概念，如绑定、

残基、ATP 等；接着综述了国内外的研究现状；最后，阐明了研究的意义。第二章，主要介绍了蛋白质数据的处理方法，也就是如何通过蛋白质序列得到模

型的输入数据（特征向量）。第三章，详细叙述了支持向量机、支持向量回归的基本算法，为后文建立的模型

提供理论依据。

第四章，针对蛋白质-ATP 绑定残基的预测问题，设计了一个支持向量回归和集成相结合的模型。

第五章，为了验证方法的有效性，进行了多组实验，并且对实验数据进行简单的

分析。

2 关于蛋白质数据的处理方法

在上文中，我们介绍了蛋白质的氨基酸残基有绑定和不绑定之分，也就是说，蛋白质-ATP 绑定残基的预测是一个二类的分类问题。

由我们要解决的分类问题可知，我们需要对蛋白质（由氨基酸序列组成，不同的序列对应不同的蛋白质数据）进行处理，以得到模型的输入数据。

2。1 数据集

蛋白质组学研究进展至今,已经建立了多个国际通用的标准数据库,如 GenBank、 EMBL 和 DDBJ 数据库[5]。

本文的蛋白质数据从上获得，包括 ATP168、ATP227 和 ATP17，作为模型建立的训练数据集，该数据集中每条蛋白质的位点绑定信息已知，我们使用该数据集得到预测模型（model）。换句话说，通过训练得到的模型，输入一组待预测的蛋白质序列数据，就可以得出序列的绑定位点信息。

对该训练数据集中的每个蛋白质数据，通过计算机的处理，得到每条蛋白质的序列信息和位点所属的类别信息。如下图所示：

图 1 蛋白质 1BCP_L 的序列信息

图 2 蛋白质 1BCP_L 绑定或不绑定位点

这是从 ATP168 中随机选取的一条蛋白质，名称为 1BCP_L。在图 1 中，下面两行表示的是组成该蛋白质的氨基酸种类，大约有 20 种，是人体中常见的氨基酸，例如，G 和 L 分别代表甘氨酸和亮氨酸。每种氨基酸有不同的物理化学性质，如疏水性、酸碱性等。图 2 中 0、1 组成的序列表示该蛋白质对应位点的绑定信息，0 表示不绑定，1 表示绑定。（这里的 0 和 1 可以是其它值，只要能够标识出标签信息即可）。从中可以看出，绑定残基只占序列的一小部分，其它大部分是不绑定残基。因而，蛋白质-ATP 绑定残基预测是一个典型的不平衡的二类分类问题。

2。2 特征提取

观察图 1 和图 2，我们可以发现：在蛋白质 1BCP_L 中，第 0 个位点 G 和第 57 个位点 g 是同一种氨基酸（甘氨酸），但是它们分别属于不同的类别：0（不绑定）和 1（绑定），因而，不能根据氨基酸的种类信息，预测残基属于绑定或不绑定。实际上，位点的绑定信息在很大程度上取决于它周围的环境，即蛋白质序列中该氨基酸残基附近其他氨基酸残基的进化信息，即进化为人体常见的 20 种氨基酸的可能性大小，数字越大说明进化的可能性越大。因此，一个氨基酸残基的属性是与位置密切相关的，即具有位置特异性。为了更完整地表示该氨基酸残基的特征，需要考虑其周围其他残基的特征信息。因而，可以使用滑动窗口来获取每个残基及其周围残基的特征参数，得到一个位置特异性得分矩阵 PSSM。基于回归策略的蛋白质残基分类算法研究(3):http://www.youerw.com/jisuanji/lunwen_88865.html