机器学习算法在生物信息学上也有着极为广泛的应用。在基因识别与蛋白质结构 预测等方面,机器学习极大地推进了生物信息学的发展。本文主要采用了机器学习中 的支持向量机算法,在接下来的章节中将会详细介绍。论文网

1。2 国内外研究现状 

1。2。1 核小体定位理论

1。2。2 核小体定位研究现状

1。3 论文主要工作 

本文主要通过机器学习的支持向量机算法(SVM)对果蝇、人类以及线虫这三个

物种的核小体进行定位理论的研究,本文旨在通过对果蝇、人类以及线虫三个物种的 核小体定位的研究为生物信息识别以及医药工程领域提供有价值的理论信息,本文内 容共计六个章节,详细内容如下所示:

第一章是绪论部分,主要介绍核小体定位所依赖的生物信息学和机器学习的基本 理论常识以及核小体定位研究的现状。

第二章介绍实验用到的三个核小体数据集(果蝇、人类以及线虫)的构建及其优 化方法。

第三章介绍核小体数据集的特征提取方法。 第四章主要介绍核小体定位预测中用到的机器学习分类算法——支持向量机。 第五章介绍主流的模式识别领域的分类结果衡量指标。 第六章介绍本文所用的组合方法得到的分类结果并将其与现存的预测器进行比

较。

总结与展望总结本文特征组合方法的预测性能,并提出进一步优化模型的方法。

第二章 核小体数据集的构建

核小体作为真核细胞中染色体的基本结构单元[19,20],在真核生物的细胞中的各种 生物反应中扮演着极其重要的角色。核小体主要有三个功能[21,22,23]:1、压缩体内线 性 DNA 链,极大提高基因组中 DNA 的稳定性;2、位于核小体内的组蛋白八聚体使

得基因组的表观遗传调控得到有效的保障;3、核小体中作用于调空的作用因子与染 色体上功能元件的接触。因此,核小体的位置信息在基因的转录调控、DNA 的复制 与修复、DNA 的剪切拼接以及基因的表达调控等生命的基本过程起到了重要的角色

[22]。

目前,核小体定位预测是表观遗传学的研究热点,从已有的核小体信息数据库中, 本文获得了线虫、果蝇和人类的核小体实验数据,本章中将介绍这三个核小体数据集 的构建过程。

2。1 实验数据集的获取 

本文中对于核小体定位的研究是建立在人类、线虫以及果蝇这三个物种的核小体 之上的。第一个物种人类核小体的序列数据来源于 2008  年 Schones[24]等人发表的研

究,线虫的核小体实验数据从http://hgdownload。 cse。 ucsc。 edu下载得到,黑腹果蝇

的核小体数据从 2008 年 Mavrich 等人发表的研究中获得。

2。2 基准数据集的创建及优化 

通过以上步骤,获得了人类、线虫以及果蝇三个物种的核小体实验数据。对于第 一个物种人类核小体数据集,它包含的数据量特别大,根据 Liu[25]等人发表的文章中 的策略本文选取了人类基因组中的 20 号染色体来建立人类核小体实验数据集。至于 另外两个物种,线虫和果蝇,本文选取他们的全基因组来构建正样本和负样本组成的 实验数据集。这三个物种形成的实验数据集中,每个 DNA 片段分配一个与核小体形 成的分数,这样来反应 DNA 片段形成核小体的概率,DNA 片段的得分越高,就表明 这个 DNA 片段形成核小体的概率就越大。基于此,在每个物种中,本文将得分高的

所有 DNA 片段作为试验训练的正样本集合,反之,所有得分低的 DNA 片段作为试 验训练的负样本集合。

上一篇:java+mysql企业员工管理系统设计
下一篇:精细化知识管理系统的设计+ER图

基于Apriori算法的电影推荐

PHP+IOS的会议管理系统的设计+ER图

数据挖掘在电子商务中的应用

数据挖掘的主题标绘数据获取技术与实现

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

安康汉江网讯

网络语言“XX体”研究

老年2型糖尿病患者运动疗...

LiMn1-xFexPO4正极材料合成及充放电性能研究

互联网教育”变革路径研究进展【7972字】

我国风险投资的发展现状问题及对策分析

ASP.net+sqlserver企业设备管理系统设计与开发

麦秸秆还田和沼液灌溉对...

新課改下小學语文洧效阅...

张洁小说《无字》中的女性意识