对2614数据集中的任意RNA序列样本R,可以公式化表示为:
(2-2)
其中,表示RNA样本序列上的第i个核酸,L表示RNA序列长度且;{A, C, G, U},A 表示腺嘌呤(Adenine)、C表示胞嘧啶(Cytosine)、G表示鸟嘌呤(Guanine)、U表示尿嘧啶(Uracil)。
2。3 特征提取
在RNA甲基化识别的实验里,最关键的就是能够提取反映核酸序列本质特征的特征向量。这对RNA甲基化位点的准确预测起至关重要的作用。
特征提取是分类识别中的一个重要概念,特征提取出的特征向量往往需要满足以下几点要求:
1。向量应该具有较好的可分性,使计算机可以较好的识别分类。论文网
2。向量应该具有可靠性,去掉那些在分类边界的特征,保留特性分明的特征。
3。向量应该具有尽可能强的独立性,往往对于一个特性的特征表示会有很多,我们选出最具有代表性的一个来表示该特性,去除冗余,提高效率。
4。向量维度尽可能小,同时尽可能保证其蕴含的特征信息不变少。
特征提取方法是本文中的重点,本文将在第三章讲述具体的特征提取方法。
2。4 分类器
有关分类识别的所有问题都绕不过两个关键门槛,第一是特征提取,第二便是分类器。几乎所有分类识别的研究都围绕着如何优化这两个关键过程而展开的,要么是构造一个更好的分类器,要么是找出一些表现力更强的特征向量。
目前,分类器包含K近邻分类器,贝叶斯分类器,SVM分类器和DeepLearning。研究表明,在RNA序列甲基化识别实验中使用SVM分类器的效果是最好的[2,34],所以在本实验中我们选择SVM分类器进行分类。
SVM是由Vapnik等人提出的一种基于统计学习VC维理论和结构风险最小化原理的一种机器学习方法,非常适合处理小样本、非线性、高维数据等机器学习领域的问题,现在已经被广泛应用于生物信息学领域。
SVM的基本思想是通过使用核函数将训练样本的特征向量非线性地映射到一个更高维的Hilbert特征空间中,在这个高维的特征空间中寻找到一个最优超平面使得正、负样本间的隔离边缘被最大化,以保证最小的分类错误率。常用的核函数有多项式核函数、径向基核函数和S项核a函数等。
本文通过台湾大学林智仁教授开发的LIBSVM软件包 (下载地址:http://www。csie。ntu。edu。tw /~cjlin /libsvm)来实现SVM分类器的设计,采用径向基核函数,通过网格搜索和10重交叉验证的策略来寻找到SVM的两个最优参数c和g。
2。5 检测方法
K重交叉验证、Jackknife(留一法)测试和独立数据集测试是三种常用的实验测试方法,其中Jackknife测试的实验结果具有唯一性,被认为是较为严格和客观的实验测试方法,因此本文在预测器性能比较的实验中,采用严格的Jackknife测试得出性能指标。因为Jackknife测试的时间复杂度等于数据集的样本个数,实验过程十分耗时,本文为节省实验时间在分类器参数选择过程中采用10重交叉验证的方法,用10重交叉验证寻出的最优分类器参数来进行Jackknife测试。
K重交叉验法,该方法是最为普遍的方法之一。其过程为:将训练样本集随
机分为K个集合,通常分为K等份,对其中的K-1个集合进行训练,得到一个决策函数,并用决策函数对剩下的一个集合进行样本测试,这样重复进行K次。
留一法,该方法可以看作是K重交叉验证的一种特殊形式,这里K为样本集大小M。其过程为:对于第i个训练样本,将其取出,对剩下M-1个样本进行训练,得到决策函数,并用其测试第i个训练样本,该过程重复M次。