基于分类器融合的RNA甲基化识别研究+源程序(4)_毕业论文

毕业论文移动版

毕业论文 > 数学论文 >

基于分类器融合的RNA甲基化识别研究+源程序(4)

因为本文要复现PesDNC中的结果,所以文中所采用的基准数据来自文献[1],其中包含1,307个正样本(含m6A位点的序列)和1,307个负样本(不含m6A位点序列), 1,307个负样本是从33,280负样本中随机抽取了1,307个,用以平衡训练集。 根据文献[1],所有正样本和负样本的序列长度都选为51,且他们的序列相似性小于85%。因此该数据集每个样本可以用下列公式表示:

R=N_1 N_2 N_3…N_i…N_51                          (2-1)

其中N_i表示的是第i个位置的核苷酸,即N_i∈{A,U,G,C}

2.3 特征提取

特征提取是机器学习的重点,将直接影响分类器模型的精确度。特征提取指的是将不同长度的RNA序列提取为固定长度的特征向量,以便计算机能够处理,这是因为现在主流的机器学习算法(SVM等)都是处理特征向量而不是处理RNA序列。所以特征提取的关键是保留生物序列的关键样式和特征,并且尽可能小。

由于特征提取的重要性,有关特征提取的详细介绍我们在第三章将单独介绍。

2.4 分类器

现如今,机器学习已然成为计算机科学与技术学科中的重要内容,而预测学习方法又是机器学习的重要内容。在预测学习领域一般有三类方法,其中在统计学习类别中的SVM分类算法能够很好地解决有限样本和高维模型问题,并且在引用文献[15]中,Wei Chen等人将采用两种不同的特征提取方法(PseDNC方法与motif方法)与所对应的SVM分类器与其它四种分类器进行比较,证明了SVM分类器用来识别m6A位点的优越性。

支持向量机(SVM)[17]是机器学习领域中一种有效的监督学习模型,已被广泛用于分类和回归分析。SVM的基本思想是将输入数据转换为高维特征空间,然后确定最优分类超平面。简单来说SVM的思想就先将样本使用线性分类,当样本空间不能线性划分时,此时我们将样本映射到一个高维空间,并在这个空间中确定最优超平面,以便能够继续线性划分。

2.5 验证方法及性能指标

一般来说,在分类器模型上经常使用的三种交叉验证方法分别是:独立数据集测试,K折交叉验证测试和jackknife(留一法)检验[18]。其中,在三种方法中,留一法测试被认为是对于给定的基准数据集可以产生最小随机性的结果,如参考文献[18]中所阐述的。因此,留一法测试已经被研究者广泛认可并越来越多地用于检查各种预测方法的性能。

K折交叉验证:将训练集分成K份,并将其中K-1份作为训练集,另外一份作为测试集,再重复K次。

jackknife(留一法)检验:计算最为繁琐,但样本利用率高。

(责任编辑:qin)