摘 要蛋白质分子是由许多个氨基酸残基链接而成的一条肽链。在生物体的生命过程 中,蛋白质分子和其它生物分子或金属离子(配体)的相互作用发挥了重要的作用, 这个相互作用的过程被称为绑定。一般情况下,蛋白质的绑定残基只占残基序列的 一小部分,大部分的残基属于不绑定,因此,蛋白质残基分类是一个不平衡的学习 问题。本文基于支持向量回归的算法,结合下采样和分类器集成的技术,消除训练 样本的不平衡性,设计了一种预测方案,预测得到一个残基属于绑定/不绑定残基 的可能性大小,最终通过合理选择阈值的方式完成预测,即大于阈值的残基被认为 属于绑定的,否则预测为不绑定,从而完成蛋白质残基的分类。我们设计并进行了 一系列实验,实验结果验证了该方法的有效性,并讨论了下采样对分类性能的影响。77322

毕业论文关键词:支持向量回归 蛋白质绑定残基 分类 下采样 分类器集成

Abstract The protein molecule is composed of many amino acid residues, which are linked one by one。 The interaction between protein and other biological molecules or metal ions (ligands) plays an important role in the process of the living lives。 In general, protein binding residues only account for a small fraction of all the residues, and most of the residues are not bound。 Therefore, the protein residue classification is an unbalanced learning problem。 In this paper, a prediction strategy is designed, which is based on support vector regression, with the help of both under-sampling and classifier ensemble technology, to eliminate the imbalance of training samples。 In doing so, this prediction strategy is utilized to predict the degree to which a residue belongs to binding or not。 Specifically, a reasonable threshold values is specified to complete the prediction, and the residue whose degree is greater than the threshold value is considered to be the binding one, otherwise the non-binding one。 A series of experiments are designed and carried out, and the experimental results verified the effectiveness of our method。 In addition, the impact of under-sampling strategy on the classification performance is discussed。

Keywords: support vector regression, protein residues banding, classification, under sampling, classifier ensemble

1 绪论 1

1。 1 研究背景 1

1。 2 国内外研究现状 1

1。 3 研究意义 3

1。4 本文组织结构 3

2 关于蛋白质数据处理的方法 5

2。 1 数据集 5

2。 2 特征提取 6

3 支持向量回归的基本算法 8

3。 1 支持向量机 8

3。 1 。 1 线性可分问题 9

3。 1 。 2 松弛约束 10

3。 1 。 3 线性不可分问题 11

3。2 支持向量回归 12

3。 3 SMO 算法 14

4 模型和方法 19

4。1 下采样 19

4。2 参数选择 20

4。3 集成

上一篇:Hog特征复杂环境下交通图像中缺损标示的检测和修复
下一篇:ASP.NET+SQLServer选课系统设计

基于Apriori算法的电影推荐

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

python基于决策树算法的球赛预测

基于消费者个性特征的化...

浅谈校园网安全控制策略【1715字】

我国风险投资的发展现状问题及对策分析

新課改下小學语文洧效阅...

互联网教育”变革路径研究进展【7972字】

张洁小说《无字》中的女性意识

LiMn1-xFexPO4正极材料合成及充放电性能研究

安康汉江网讯

ASP.net+sqlserver企业设备管理系统设计与开发

麦秸秆还田和沼液灌溉对...

老年2型糖尿病患者运动疗...

网络语言“XX体”研究