摘要生物信息学是一门结合了应用数学,统计学以及计算机科学的新兴学科,主要是研究收集生物的信息,并对其进行处理分析。然而DNA甲基化的识别就需要这个多基础学科的新兴科学进行研究,为了在计算机中完整的表示出DNA的属性特征,我们需要各种数学统计的方法,对相关DNA进行特征提取,然后使用计算机对特征向量进行识别。
在识别DNA甲基化的过程中,需要先构造DNA序列的特征向量,物化属性,位置特异性,对称结构均可以作为提取特征向量的方式,但是若单个使用这些方式,可能导致预测精度不够高;若我们对其中的一些特征进行合并,即用化学属性与位置特异性相结合可形成新的方法,对DNA甲基化位点数据集上面的样本进行抽取分类特征步骤,然后针对性构建分类器,并且确定相关的分类器的参数,之后选用支持向量机(SVM)作为预测工具在DNA数据集上进行实验,最终结果能保证优于单个属性提取的特征向量所得结果。78419
毕业论文关键词:支持向量机(SVM);化学属性;位置特异性;甲基化;特征提取
Abstract Bioinformatics is a new discipline which combines applied mathematics, statistics and computer science。 It mainly studies the information of collection and processing。 However the identification of DNA methylation requires the multi-disciplinary basis emerging science to study, in order to in the computer complete expressed the attributes of DNA, we need a variety of mathematical statistical method, the DNA for feature extraction, and the use of computers to feature to identify。
In the process of recognition of DNA methylation, featurevectors first construct DNA sequences, physicochemical properties, location specific, symmetric structure can be used as the feature extraction method, but if the single use of these methods, may cause the prediction accuracy is not high; if some of our characteristics were merged with the chemical properties and position specific combination can form new methods, DNA methylation data set above the sample extraction classification steps, then to construct the classifier, and determine the parameters of the classifier, then use support vector machine (SVM) as a predictive tool on DNA dataset。 The final result can ensure the results of feature vector extraction was better than single attribute。
Key words: support vector machine (SVM); chemical property ;location specific binding ;Methylation;Feature extraction
目 录
第一章 绪 论 1
1。1 DNA甲基化研究背景及意义 1
1。3 论文主要工作 2
第二章 DNA概述 3
2。1 DNA的含义及表达方式 3
2。2 DNA的化学属性及特征向量的构造方法 5
第三章 DNA甲基化识别 7
3。1确定DNA序列集 7
3。2 特征向量的提取 8
3。3 支持向量机 10
第四章 结果与讨论 13
4。1 绩效评价 13
4。2 交叉验证测试 13
4。3参数优化 14
4。4 数据测试结果 14