统计特征的DNA序列甲基化识别方法研究(5)

2。4 分类器的选择

在研究预测的过程中，我们经常会用到多种分类器，基于欧氏距离或马氏距离的分类器、贝叶斯分类器以及决策树、SVM 分类器等。本文采用的是 SVM 分类器作为预测引擎。

支持向量机分类器（SVM），这是由 Cortes 和 Vapnik 提出的一个基于统计学习理论的机器学习算法[14,15]，已在生物信息学许多领域广泛使用，它用核方法解决了非线性分离问题，其基本原理是通过核函数将输入向量转换为高维希尔伯特空间和寻求分类超平面之间距离的最大值。文献综述

具体而言，就是在 n 维空间中找到一个分类超平面，将空间上的点进行分类，某个点距离超平面的远近可以表示为其分类预测的准确程度。SVM 就是要最大化这个间隔值。在虚线上的点便叫做支持向量 Support Vector，（如图 2-3），而在现实中，我们会经常遇到线性不可分的样例，此时我们的常用做法是把样例的特征映射到高维空间中去（如图 2-4），虽然由此可能会导致维数灾难，从而导致计算复杂。而核函数的价值在于它虽然也是将特征进行从低维到高维转换，但它是事先在低维上进行计算，而将实质上的分类效果表现在了高维上，也就因此避免了直接在高维空间中的复杂计算。这就是 SVM 原理。此原理已被广泛应用于各种生物信息学区域，并已被证明是一个很强大的预测引擎。在这项研究中，我们也应用支持向量机（SVM）作为预测引擎。使用的支持向量机 SVM 的程序开发包，可以从 LIBSVM

下载得到。本文选择径向基核函数（RBF）作为核函数，在 RBF 核函数中含有两个参数，其中正则化参数 c 和核宽度参数 g，采用 10 重交叉验证和网格搜索的方法进行优化。

图 2-3 SVM 支持向量原理图

2。5 评价指标

图 2-4 SVM 空间映射原理图

针对目前研究中存在的问题，四个指标在文献中经常使用：准确性（Acc），灵敏度（Sn），特异性（Sp），和马修相关系数（Mcc）是经常使用的评价指标。其定义如下：

TP+TN

TP+TN+FP+FN

(TPTN)-(FPFN)

其中，TP表示甲基化样本被正确预测，TN表示非甲基化样本被正确预测，FP表示甲基化样本被错误预测，FN表示非甲基化样本被错误预测。然而，上述的四个指标表述的不太直观，对于大部分生物学家而言是比较难理解的，尤其是马修相关系数

（Mcc）。因此，还可以通过使用如下公式（2-7）定义：

其中， N+ 表示所研究的 DNA 甲基化片段总数， N+ 表示真实的甲基化片段被错误预测为非甲基化片段， N- 表示所研究的 DNA 非甲基化片段总数， N- 代表非甲基

化片段错误预测为甲基化片段。结合公式 2-7，现在可以清晰看出：

（1）当 N+ =0，表示所有甲基化片段都被正确预测，此时灵敏度Sn=1。

（2）当 N+ = N+ ，表示所有甲基化片段被错误地预测为非甲基化段，此时灵敏度Sn=0。

（3）当 N- =0，表示非甲基化片段都被正确地预测，此时特异性Sp=1。

（4）当 N- = N- ，表示所有的非甲基化片段被错误地预测为甲基化段，此时特异性Sp=0。

（5）当 N+ = N- =0，表示甲基化和非甲基化样本均被正确预测，此时有整体精

度Acc=1 和Mcc=1。

（6）当 N+ =N+ ， N- =N- 表示甲基化和非甲基化样本都被错误地预测，有总体精来`自+优-尔^论:文,网www.youerw.com +QQ752018766-

度Acc=0 和Mcc=-1。统计特征的DNA序列甲基化识别方法研究(5):http://www.youerw.com/shuxue/lunwen_89887.html