摘要生物信息学是一门结合了应用数学,统计学以及计算机科学的新兴学科,主要是研究收集生物的信息,并对其进行处理分析。然而DNA甲基化的识别就需要这个多基础学科的新兴科学进行研究,为了在计算机中完整的表示出DNA的属性特征,我们需要各种数学统计的方法,对相关DNA进行特征提取,然后使用计算机对特征向量进行识别。

在识别DNA甲基化的过程中,需要先构造DNA序列的特征向量,物化属性,位置特异性,对称结构均可以作为提取特征向量的方式,但是若单个使用这些方式,可能导致预测精度不够高;若我们对其中的一些特征进行合并,即用化学属性与位置特异性相结合可形成新的方法,对DNA甲基化位点数据集上面的样本进行抽取分类特征步骤,然后针对性构建分类器,并且确定相关的分类器的参数,之后选用支持向量机(SVM)作为预测工具在DNA数据集上进行实验,最终结果能保证优于单个属性提取的特征向量所得结果。78419

毕业论文关键词:支持向量机(SVM);化学属性;位置特异性;甲基化;特征提取

Abstract Bioinformatics is a new discipline which combines applied mathematics, statistics and computer science。 It mainly studies the information of collection and processing。 However the identification of DNA methylation requires the multi-disciplinary basis emerging science to study, in order to in the computer complete expressed the attributes of DNA, we need a variety of mathematical statistical method, the DNA for feature extraction, and the use of computers to feature to identify。 

In the process of recognition of DNA methylation, featurevectors first construct DNA sequences, physicochemical properties, location specific, symmetric structure can be used as the feature extraction method, but if the single use of these methods, may cause the prediction accuracy is not high; if some of our characteristics were merged with the chemical properties and position specific combination can form new methods, DNA methylation data set above the sample extraction classification steps, then to construct the classifier, and determine the parameters of the classifier, then use support vector machine (SVM) as a predictive tool on DNA dataset。 The final result can ensure the results of feature vector extraction was better than single attribute。 

Key words: support vector machine (SVM); chemical property ;location specific binding ;Methylation;Feature extraction

目   录

第一章 绪 论 1

1。1 DNA甲基化研究背景及意义 1

1。2 DNA甲基化国内外研究现状 1

1。3 论文主要工作 2

第二章 DNA概述 3

2。1 DNA的含义及表达方式 3

2。2 DNA的化学属性及特征向量的构造方法 5

第三章 DNA甲基化识别 7

3。1确定DNA序列集 7

3。2 特征向量的提取 8

3。3 支持向量机 10

第四章 结果与讨论 13

4。1 绩效评价 13

4。2 交叉验证测试 13

4。3参数优化 14

4。4 数据测试结果 14

上一篇:矩阵广义特征值性质和应用QR算法
下一篇:积分思想在立体体积计算中的应用

浅谈中学数学函数最值问题的求解方法

基于决策树算法的篮球联赛预测

数形结合在中学数学中的...

浙江省工业企业发展的因子分析

中美小学数学课堂教学的比较

杭州历年中考三角形的题型分析

论数形结合在中学数学教育中的应用

我国风险投资的发展现状问题及对策分析

ASP.net+sqlserver企业设备管理系统设计与开发

LiMn1-xFexPO4正极材料合成及充放电性能研究

网络语言“XX体”研究

麦秸秆还田和沼液灌溉对...

张洁小说《无字》中的女性意识

安康汉江网讯

新課改下小學语文洧效阅...

老年2型糖尿病患者运动疗...

互联网教育”变革路径研究进展【7972字】