DNA和组蛋白的表观遗传学修饰主要在转录水平上起作用,可逆的RNA甲基化主要在转录后水平上调控基因表达[1]。且DNA、RNA和蛋白质均使用相同的化学修饰控制基因表达,所以RNA甲基化可以与DNA、组蛋白的表观遗传学修饰相提并论。然而人们对RNA甲基化的研究却远不如对DNA甲基化和蛋白质甲基化的研究。RNA甲基化种类繁多,也普遍存在于各种高级生物中,但是由于多年来大家都不太重视,且缺乏有效的检测手段,故RNA甲基化的相关研究一直停滞不前。因此加快RNA甲基化识别的研究,促进对高级生物中RNA甲基化功能的研究,是十分重要的且十分迫切的。
1。2 国内外研究现状
1。3 论文主要工作
通过参考相关文献,研究RNA甲基化相关论文,以及向老师同学请教,论文主要完成以下内容:
学习RNA序列甲基化识别过程;
实现基于核酸统计特征的特征提取方法;
实现基于物理化学属性的特征提取方法;
设计并实现SVM的分类器;
利用MATLAB编写程序,在RNA样本数据集上测试各预测器的性能,根据性能指标评价各预测器,通过实验验证两类特征提取方法组合后识别能力是否提高。
第二章 RNA序列甲基化识别
如何使用计算机准确识别RNA序列的甲基化位点是具有挑战性的。RNA序列的甲基化识别,首先要提取数据集上RNA序列的特征向量,然后根据特征向量采用SVM分类器构建一个识别RNA甲基化位点的预测器,接着用10重交叉验证法或者留一法对预测器进行测试,最后通过在基准数据集上得出预测器的性能指标Sp、Sn、Acc和Mcc。
2。1 识别方法概述
随着高通量技术的发展和后基因时代的到来,需要识别的RNA序列呈雪崩式增长,用湿实验来检测RNA序列的甲基化位点是耗时费力费钱的一种不可大范围大规模使用的方法,所以需要使用基于智能计算的干实验对大量的未检测的RNA序列进行识别。
识别RNA序列甲基化位点的一般过程,是机器通过对已知RNA序列的学习,得出预测模型,而后使用预测模型对测试集上的RNA序列进行测试的过程。我们首先将已知的RNA序列分为训练集和测试集两类,通过训练集进行学习,获得一个预测模型后,使用预测模型对测试集进行测试实验,根据测试的结果分析判断这种识别方法是否有效。如果这种模型能很好的识别出RNA序列,我们就能将这种方法推广到其它测试集上。但是计算机并不是人,它不能直接处理RNA的字符串序列,所以我们首先要将RNA序列进行特征提取,将RNA序列表示成离散的数值特征向量,而且提取出的特征将直接影响预测模型的识别能力。文中实验的流程如下图所示:
图2-1 RNA甲基化识别流程
2。2 数据集
在RNA序列甲基化识别的实验中,使用的数据集都是由酿酒酵母基因组中的基因片段构成的,酵母基因组中的RNA片段中心都含有共有基序GAC,Guanine鸟嘌呤(G)、Adenine腺嘌呤(A)、Cytosine胞嘧啶(C),只有共有基序GAC中的A才有可能被甲基化,如公式(2-1),其中是A上游距离的核苷酸,是A下游距离的核苷酸,是一个整数,记为:
(2-1)
若A被甲基化,则将此RNA序列称为正的RNA序列表示为;若未被甲基化,则RNA序列被称为负的RNA序列,表示为。
本文采用文献[2]中构造的1307个正样本和33280个负样本。取1307个正样本,及从33280个被验证未被甲基化的m6A样本中选出的1307个负样本组合成的2614数据集。当时,预测结果较好,故在2614数据集中RNA序列的长度为。