通过以上步骤,本文获得了三个物种的正样本集和负样本集,但是在这些实验数
据集中,还存在着很多冗余重复的序列信息,比如同一数据集中有多条极其相似或者 部分片段相似的序列。分类器如果训练了带有冗余信息的数据集将会对实验结果造成 很大的影响,一般表现为分类的正确率提高。因此,带有冗余信息的数据集对预测器 的预测结果影响过大,必须采取方式去除序列中的 DNA 冗余信息片段[26]。
如今,已经出现了多种去除冗余片段和序列的软件,如 CD-HIT、BLAST 等。文献综述
CD-HIT 是一款功能强大的免费开源软件,并且已经被广泛用于生物信息序列冗余信 息的去除。CD-HIT 的基本原理是先对所有数据集中的序列,依据序列的长度从最长 到最短排序,从最长的一条序列起,作为第一个分类的类别。接下来依次处理排好序 的各条序列,若新添加的一条序列和己有的某种类别中的样本相似性大于规定好的阂 值,就把此序列归为已有的类别,反之把此序列划为新的类别。
CD-HIT 的使用也很简单,解压软件包之后,进入该文件夹,运行如下命令:
。/cd − hit − i inputfile − o outputfile − c threshold − n wordLength
其中-i 表示输入的文件名,-o 表示输出的文件名,-c 表示序列的阈值。在这里,
我们通过使用CD-HIT去除序列相似性在 80%以上的片段,基于此,本文得到了人类、 线虫以及果蝇的去除了冗余信息的基准实验数据集。
表 2-1 核小体数据集序列数目
Species 正样本 负样本
H。sapiens 2273 2300
C。elegans 2567 2608
D。melanogaster 2900 2850
将三个物种的正负样本集合表示为以下公式:
1 人类核小体数据集
+ −
S� = S� ⋃S� ,k = 2 线虫核小体数据集
3 果蝇核小体数据集
在公式(2-1)中,S+表示人类核小体数据集中包含 2273 条形成核小体的正样本
− +
序列,S1 表示人类核小体数据集中包含 2300 条抑制核小体的负样本序列;S2 表示线
虫核小体数据集中包含 2567 条形成核小体的正样本序列,S2 表示线虫核小体数据集 中包含 2608 条抑制核小体的负样本序列;S3 表示果蝇核小体数据集中包含 2900 条形 成核小体的正样本序列,S3 表示果蝇核小体数据集中包含 2850 条抑制核小体的负样来;自]优Y尔E论L文W网www.youerw.com +QQ752018766-
本序列。三个物种的数据集中所有的序列的长度均为 147bp,同一物种数据集中不存
在序列之间的同一性在 80%以上的序列[27]。
第三章 核小体数据集的特征提取
特征提取将生物学领域的生物信息描述转化为能够被计算机识别的形式,因此, 特征提取是生物信息学研究的重要步骤。目前,DNA 序列的主流的特征表示主要有 核苷酸成份法和伪核苷酸成份法。