基于分类器融合的RNA甲基化识别研究+源程序(3)_毕业论文

毕业论文移动版

毕业论文 > 数学论文 >

基于分类器融合的RNA甲基化识别研究+源程序(3)

1.2 国内外研究现状

随着基因序列检测技术的发展,陆续有很多研究者提出了一些用于预测RNA甲基化的方法,如Ming Zhang 等人的M6A-HPCS方法[9], Zi Liu等人提出的pRNAm-pc方法(通过物理化学性质预测m6A位点)[10],还有本文中提到的RFH方法[11],PseDNC方法[12],这些单分类器的功能都很强大(在文献[11]中的RFH方法ACC高达0.78)。若想改变特征提取方式或者分类器算法以进一步提高单分类器性能变得很困难,但却可以使用一些有效的方法来融合所提取的特征向量或融合多个单分类器,来进一步提高预测RNA甲基化的性能。基于这些想法,也有研究者提出了一些融合的方法,并且这些方法也取得了很好的结果。

在特征融合上,Guang-Qing Li等人在2016年提出了一种名为TargetM6A[13]的预测器,该预测器融合了三种特征提取方法,分别是NC方法、PSNP方法、PSDP方法。融合后一共获得了M =2L+(2L-1)+ 84 维的特征向量,L表示RNA序列长度。84为NC方法所得的向量维数,2L为PSNP方法所得的向量维数,(2L-1)就是PSDP所得的向量维数。最终该特征融合方法MCC达到0.52,相对于单个结果最优的PSNP方法提高了3个百分点。

在分类器融合上,2016年8月,BinLiu等人提出一个新的用于预测DNA甲基化位点的预测器——iRSpot-EL[14]。其采用了多分类器融合方法——使用ap聚类算法将510个单分类器聚成7个聚类,再使用Y=1/7 ∑_(i=1)^7▒〖F_i P_i 〗公式来判断样本的正负性,其中F_i指F-score方法。该分类器取得很好的预测结果,其准确度(ACC)高达0.83,马修相关系数(MCC)高达0.65。

此外,在用于预测RNA甲基化的研究上,Wei Chen等人在2017年1月发表了一篇从RNA转录组检测N6-methyladenosine的论文[15],采用多数投票法的方式成功融合了motif方法,PseDNC方法与gksvm方法所获得的三个单分类器,并且取得了很好的结果,其中ACC相对于最高的单分类器提高4个百分点,MCC提高8个百分点。

这些实验都表明了合理的融合多个单分类器所得结果的性能将优于单个分类器的性能。

1.3 本文的主要内容

对RNA甲基化数据集上的样本通过四种方法提取特征向量;

构建基于四种特征向量的四个分类器(svm);

采用三种方法融合所得的四个分类器;

对实验结果进行评价与分析。

第二章  RNA甲基化识别方法

这一章主要讲解了单个分类器识别RNA甲基化的过程,并对文中使用的一些方法做了描述和定义,其主要流程我们将在本章第一节给出。

2.1 方法流程

一般来说,用机器学习方法识别RNA甲基化分为四步:

选取RNA甲基化基准数据集:通常情况下,我们应该将基准数据集分为训练集与测试集,用来训练和测试分类器性能。

特征提取:将RNA序列提取成计算机能识别的离散特征向量。

获取分类器模型:使用不同的特征向量以获取不同的分类器模型。

验证与测试:选择合理的验证方法以评价分类器的性能。

由于本文会采用多分类器融合的方法,所以需要在第(3)步和第(4)步中间添加一步——分类器融合:融合多个单个分类器以获得更好的结果值。关于这一步将在第四章中详细介绍。

2.2 基准数据集

一个可靠并严谨的基准数据集是能否提出一个准确的分类器模型的关键。理论上,我们要将所用的基准数据集分为训练集和测试集:前者是为了训练得到一个分类器模型,而后者的目的是为了测试这个模型。但根据文献[16]中所得的结论,如果我们是通过jackknife检验或者是 k-折交叉验证来检验分类器的性能的话,那就没有必要再将基准数据集分为训练数据集与测试数据集了,因为采用这些方法所获得的结果实际上就是许多不同的独立的数据集测试的组合结果。 (责任编辑:qin)