生物信息学中,最具挑战性的难题是如何将一个具体的生物序列表示成为具体的模型或向量,这个模型或向量需要保持生物序列中的准确且有序信息,不仅如此,还要能够抓住生物序列的主要特征。这是因为几乎所有的现有机器只能处理向量而不是生物序列样本。87100
在蛋白质的甲基化实验中,氨基酸成分法和PseAAC[29-31]取得了很大成功,并被广泛应用于计算蛋白质组学等方面的研究。
在DNA甲基化的实验中,kmers[23]和gapped kmers[24]都成功应用于预测调控序列上,并取得了可喜的成果[23-25]。同时对Chou提出的 PseAAC[31]进行拓展延伸,设计了称为PseKNC或伪K-tuple核苷酸组成的方法,使用它解决一些DNA上的重要问题,而且创建了与它相关的服务网站。[7,26-28]论文网
在RNA甲基化的实验过程中,需要对RNA序列进行特征提取,将RNA序列表示成为离散的、数值的、计算机可处理的向量,采用SVM分类器对特征提取出的特征向量进行学习,构建预测模型。由于对RNA甲基化的研究过少,目前的提出的特征提取方法都不能很好的表示RNA序列。所以,在RNA序列甲基化识别研究过程中,存在大量的问题:
第一、RNA序列的特征提取,怎样才能准确的提取出基准数据集中RNA序列特征。
第二、分类器,如何突破技术瓶颈,创建出一种更好的、更能将被甲基化的RNA和未被甲基化的RNA分开的分类器;或是怎样选出一种好的分类器用在对RNA序列的学习和预测上。
第三、分类器参数的选择,如何快速寻到最优参数。
第四、高效的算法,如何利用已有的理论知识,创建出更好的预测学习算法。