3。4。3 AC&CC 方法 15
第 4 章 特征选择 18
4。1 属性寻优 18
4。1。1 启发式算法 18
4。1。2 属性寻优结果 21
4。2 SVM 参数寻优 27
4。3 向量模型参数寻优 27
4。3。1 PseDNC 方法参数寻优 27
4。3。2 AC&CC 方法参数寻优 29
第 5 章 结果与讨论 30
5。1 评价指标 30
5。2 交叉验证 31
5。3 结果分析 32
结 语 33
致 谢 34
参考文献 35
第 1 章 绪论
1。1 研究背景
生物信息学是近年来伴随着人类基因组计划(Human Genome Project/HGP)实施 发展而产生的一门交叉学科,涉及生物学、数学以及计算机科学等,包含对生物信息 的获取、处理、分析等等在内的方方面面。不同于传统的生物学研究,生物信息学建 立在海量生物数据的基础上,通过统计、计算分析来研究其中的生物学意义,以解决 生物学、医药学研究中的相关问题。生物信息学的根本目标是全面剖析复杂的基因组 信息结构以及揭示遗传语言的根本规律。几十年来,生物信息学经历了前基因组时代、 基因组时代,顺利完成了生物数据库的构建、基因的解码和测序。如今的后基因组时 代,生物信息学的研究方向转向利用科学计算的方法来分析、挖掘生物数据信息的内 在规律。基因组中包含了生物体全部的遗传信息,是全面揭示生命发展变化规律的源 泉。如何快速、准确地获取基因序列中遗传信息是当今研究的重点和热点。论文网
DNA 甲基化,这一甲基被加入胞嘧啶残留的生化反应过程,参与了许多基因的 功能调节过程。这一过程是最早被发现的基因化学修饰方式之一,研究认为 DNA 甲 基化可能存在于所有高等生物中。甲基化过程在生命发展以及疾病形成的表观遗传基 因调整中都扮演了非常重要的角色,因此也被认为是细胞生命调节静默的主要表观遗 传(Epigenetic)标志[1]。在细胞发育过程中,特别是在哺乳纲生物的细胞中,DNA 甲 基化参与了调控基因表达、基因组标记、X 染色体活性等重要的生命活动过程。DNA 甲基化过程是建立及维持其他表观遗传学现象的重要基础,它与众多细胞的生长、增 殖、衰老、癌变等生命现象有着密不可分的联系[2]。
1。2 研究现状
1。3 本文研究内容
参考相关研究,我们认识到,开发一种高效、准确的预测程序,我们必须明确如 何构建有效的基准数据集来训练和测试预测程序、如何构建能够准确表示 DNA 序列 的离散模型、如何选取高效的分类算法以及如何设计交叉验证方法对预测程序的准确 性进行客观的检验以及评价。本课题旨在 DNA 序列及二核苷酸物理化学属性的基础 之上,利用伪核苷酸特征、自协方差和互协方差组合对序列进行特征提取,结合 SVM 分类算法,开发更加高效、准确的 DNA 甲基化位点识别方法。