毕业论文

打赏
当前位置: 毕业论文 > 数学论文 >

统计特征的DNA序列甲基化识别方法研究(3)

时间:2022-02-17 22:30来源:毕业论文
(3)对公共数据集采用 SVM 分类器进行预测,并执行 Jackknife 验证测试; (4)对公共数据集的实验结果进行评价分析。 第二章 甲基化位点识别概述 2。

(3)对公共数据集采用 SVM 分类器进行预测,并执行 Jackknife 验证测试;

(4)对公共数据集的实验结果进行评价分析。

第二章  甲基化位点识别概述

2。1 甲基化位点识别流程

(1)构建或选择有效的基准数据集来进行训练和预测的测试;

(2)对样本采用统计的方法,提取出能够真实地反映其与目标预测有内在关联,具 有高鉴别能力的特征向量;

(3)引入或开发一个较好的分类算法(或引擎)来操作运行预测程序;

(4)选择合适的测试方法,确定预器性能的评价指标,客观地评价预测器的性能。

2。2 基准数据集

图 2-1 甲基化位点识别流程图

构造或者选择一个有效的基准数据集是成功预测的基础,数据集过小则不具有代 表性,而数据集过大又会导致工作量过大,耗费时间长。本文所使用的 DNA 序列来 自于 MethDB ,MethDB 是整合了多个文献中出现的 DNA 甲基 化数据的数据库,也是涵盖物种和组织最多的数据库。它是一个采集了以 C(Cytosine 胞嘧啶)为中心的  DNA   甲基化片段(即包含潜在甲基化位点的片段)的公共数据库。

从 MethDB 中任选的一个 DNA 序列可以表示如下:

Rξ(C)=N-ξN-(ξ-1) … N-2N-1CN+1N+2 … N+(ξ-1)N+ξ (2-1)

其中,中心“C”代表  Cytosine   胞嘧啶,下标ξ是一个整数,N-ξ代表中心“C”的第ξ个

上游核苷酸,Nξ表示第ξ个下游核苷酸,以此类推(如图  2-2  所示)。(2ξ+1)个核酸长

度的 DNA 样本可进一步公式表示为:

Rξ(C)∈ {

R+(C),如果它的中心“C”是甲基化位点 R- (C), 其它情况

(2-2)

图 2-2 DNA 序列(-ξ, ξ)移动展示

+ -

其中Rξ       (C)代表可以甲基化的样本片段,Rξ(C)代表不能够甲基化的样本片段,∈表

示集合运算中“属于”操作符。因此,本文的基准数据集也可以表述为:

+ -

Sξ = Sξ ⋃ Sξ

(2-3)

+ + - -

这里的Sξ     只包含可以甲基化的Rξ    (C)样本,Sξ只包含不能够甲基化的Rξ(C)样本,⋃表

示集合运算中“并”操作符。Rξ(C)是一个长度为(2ξ+1)      核酸序列,当ξ取值不同时,

基准数据集将包含 DNA 片段不同数量的核苷酸序列,表示如下:

 37 核苷酸,当 ξ=18

 39 核苷酸,当 ξ=19

Sξ包含的片段

 41 核苷酸,当 ξ=20

 43 核苷酸,当 ξ=21

(2-4)

{ ⋮

构造Sξ的详细的过程如下:

(1)每一个从 MethDB 中任取的 DNA 序列,沿其滑动一个(2ξ+1)核苷酸窗口(如图

2-1 所示)。

(2)如果 DNA 序列的上游或下游小于ξ,则用与它的最接近的相同的核苷酸进行填 充。

(3)如果 DNA 样本的中心是实验标注的甲基化位点,以这种方式获得的 DNA 片段

+ -

投入到正的Sξ     子集,否则,将它们归于负的Sξ子集。 统计特征的DNA序列甲基化识别方法研究(3):http://www.youerw.com/shuxue/lunwen_89887.html

------分隔线----------------------------
推荐内容