摘要RNA 对于整个生物学领域有着尤为重要的作用,它不仅负责将 DNA 的遗传信息 传递给蛋白质,同时还在各种生物学过程中起着调控作用,如何更好的学习研究 RNA 是生物学领域一直努力追求的目标。而自从科学家们在 2012 年首次发现可逆性 RNA 甲基化——m6A 后,作为一个新兴领域,RNA 甲基化识别受到了越来越多的关注。83297
RNA 甲基化的识别首先需要对 RNA 的特征进行提取;然后将提取出来的特征构 建成为一个数据集,再构建 SVM 分类器,对数据集进行训练和测试;最后采用交叉验 证方法对得到的实验结果进行评测。 本文首先采用了基于伪核苷酸组成成分[1](PseDNC)方法的 RNA 甲基化识别,通过此方法提取 RNA 序列的特征向量,根据特 征向量构建一个 RNA 序列样本甲基化位点检测的分类器并进行交叉验证。最终得到的 结果与现存的已有的研究结果相比提高不大,为了更加有效的提高预测器的性能,在 此基础上我们又做了基于二核苷酸的自相关系数[2](Auto-Covariance)、互相关系数[2]
(Cross-Covariance)方法,以及自相关系数与互相关系数相组合[2]的方法的 RNA 甲基 化识别,以此得到的结果优于 PseDNC 方法所得到的结果。
毕业论文关键词: 分类器;交叉验证;自相关系数;互相关系数;PseDNC;
Abstract RNA,which is especially important for the biology,it is not only transmit the genetic information from DNA to protein,but also playing a regulatory role in the various biological
processes。So how to better study the RNA is the goal of biology that has been striving for years。 As an emerging field, RNA-methylation has get more and more attention since scienti- sts found m6A which is an reversible RNA-methylation for the first time。
Methylation of the RNA recognition first need features of RNA were extracted; then the extracted feature built into a dataset, and then build a SVM classifier, training and testing of the data set。 Finally, the cross validation method for evaluation of the obtained experimental results。This paper uses a composition based on pseudo nucleotide (PseDNC) methylation identification method, feature vectors of RNA sequence were extracted by this method,and according to the feature vectors we construct a sequence of RNA samples methylation classifier and cross validation,but the research result just improve a little compared with the existing result。 In order to improve the performance of the predictor more effectively, we do
theexperiment notonly byAuto-CovarianceandCross-Covariance , butalsoby
Auto-Covariance and Cross-Covariance combining。By these methods,we have get a better result than before。
Keywords:Classifier;Cross validation;Auto-Covariance;Cross-Covariance;PseDNC;
目录
第一章 绪论 1
1。1 研究背景及意义 1
1。3 论文主要工作 2
第二章 方法概述 3
2。1 简介 3
2。2 基础数据集 3
2。3 特征提取 4
2。4 支持向量机 5
2。5 评测方法 5
2。6 交叉验证的方法 6
第三章 RNA 甲基化识别 7
3。1 基于 PseDNC 特征的 RNA 甲基化识别