1
1.3 本文的主要内容 3
第二章 RNA甲基化识别方法 4
2.1 方法流程 4
2.2 基准数据集 4
2.3 特征提取 5
2.4 分类器 5
2.5 验证方法及性能指标 5
第三章 RNA序列特征提取方法 8
3.1 RFH方法 8
3.2 CpG方法 9
3.3 PseKNC方法 10
3.4 单分类器结果 12
第四章 分类器融合 13
4.1 平均法 13
4.1.1 算术平均法 13
4.1.2 加权平均法 15
4.2 多数投票法 16
第五章 实验结论及分析 18
5.1 实验结论 18
5.2 结果分析 19
5.2.1平均法 19
5.2.2投票法 20
5.3 结果比较 20
结 语 21
致 谢 22
参 考 文 献 23
第一章 绪论
1.1 研究背景及意义
RNA甲基化指的是在RNA分子上不同位置上所出现的化学修饰的现象。具体来说就是在RNA分子上存在着可逆的化学修饰,这些修饰控制着RNA的表达。在生物体的中心法则中,RNA的表达将直接控制蛋白质的结构并能够影响它的功能,所以RNA甲基化能够在不改变核苷酸序列的情况下控制着生物体的生长发育,而这也是表观遗传学的重要内容。
到目前为止,人们已经从信使RNA(mRNA),转录RNA(tRNA)以及核糖体RNA(rRNA)中发现了超过100种不同的修饰[1],其中在腺嘌呤(m6A)与胞嘧啶(m5C)上出现的甲基化修饰最为常见。伴随着对腺嘌呤上m6A甲基化研究的越发深入,研究者们陆续发现了一些有关m6A甲基的转移酶:WTAP、METTL3、METTL14以及一些m6A去甲基化酶:FTO、ALKBH5[2]。关于m6A的修饰可逆化过程将在图1-1中给出。
最近的一些研究表明,RNA甲基化在肥胖[2],生殖发育[3],恶性肿瘤[3]的检测以及脑发育异常[4]等疾病中有着很高的研究价值,如FTO去甲基化酶就被发现与人类的肥胖问题息息相关[5], ALKBH5去甲基化酶被发现与生物的生殖发育相关[6]。
图1-1 RNA甲基化流程图
多年前,研究者们就发现了mRNA上存在着有关甲基化修饰的位点(m6A),但早期对m6A的检测手段主要依靠化学实验,如液相色谱技术[7]。这使得相对于DNA与蛋白质的甲基化研究而言,RNA甲基化修饰虽然繁多,并且几乎伴随着整个DNA表达的过程,但由于缺乏有效的检测手段,使得研究者对RNA甲基化研究不是很重视(因为在化学试验液相色谱技术中仅仅只能发现m6A修饰的那一段序列的是一段保守序列[8])。
随着免疫共沉淀技术与高通量测序技术的迅速发展,尤其是高通量测序技术可被用于全RNA序列的甲基化检测之后,RNA甲基化的功能逐渐被发现。然而想要通过生物实验(高通量实验)来识别RNA甲基化是昂贵且辛苦的,因此如果能根据RNA甲基化基准数据集制定一个好的机器学习方法用来预测RNA甲基化将会是非常有意义的。基于先前研究者所做的研究,本文还对多个单分类器进行了三种融合,以进一步优化预测的结果。 基于分类器融合的RNA甲基化识别研究+源程序(2):http://www.youerw.com/shuxue/lunwen_205050.html