目前,人们借助高通量测序技术,已经得到粗略的m6A修饰谱,使人们对m6A修饰的认知有了较大的飞跃。然而,遗憾的是,就目前来说,仅有为数不多的计算工具可用于预测RNA序列中m6A的位点,即iRNA-Methyl[7],m6Apred[10]和pRNAm-PC[11],由文献[7]可知,iRNA-Methyl是通过使用一个有效的伪核苷酸组成功能(PseDNC)进行特征提取进而获得序列的特征向量以实现位点识别。由文献[10]可知,m6Apred则利用核苷酸类化学特征和累计核苷酸频率功能编码RNA序列。由文献[11]可知,pRNAm-PC通过一系列自协方差和互协方差的变换,并采取支持向量机作为预测引擎来从RNA序列中提取核苷酸的理化特征。这些方法一方面证明了RNA序列甲基化识别的可行性,但另一方面还具有一定缺陷,它们的预测性能相对较低,还有待改进。此外,现有的研究还存在以下一些问题:仍然面临一些问题:第一,甲基化的催化机制,第二,如何突破技术瓶颈,达到可以直接检测m6A位点的水平,第三,要发展实验手段对特定基因的修饰位点进行功能研究。第四,目前大多数方法既耗费时间又耗费金钱,还有待研究出更为简便省时的方法。
在前人研究的基础上并结合目前尚存的问题,本文主要利用酿酒酵母基因组作为基准数据集,采用基于统计特征的特征提取,并依据特征向量构建一个RNA序列样本甲基化位点检测的分类器,以减少实验成本并优化预测结果。