Here the concept of PseKNC was used to define the feature vec-tors for identifying recombination spots via 15 indices (Table 1) of local DNA structural properties, which were selected from (Friedel et al., 2009). Note that PseKNC model contains three uncertain par- ameters: k is the number of neighboring nucleic acid residues; k is the highest ranks or tiers (Chou, 2005); w is the weight factor. These three parameters will be discussed in the Ensemble Learning Section.
2.3 Dinucleotide-based auto-cross covariance
In this study, the DNA sequences were generated by a very special mode of PseKNC (Liu et al., 2015b), the so-called dinucleotide- based auto-cross covariance (DACC) approach, which is a combin- ation of dinucleotide-based auto covariance (DAC) and dinucleotide-based cross covariance (DCC). The former is based on a same physicochemical property listed in Table 1; while the latter, based on two different ones. Note that there is one shift parameter lag in the DACC, as will be discussed later.
2.4 Support vector machine
Support vector machine (SVM) (Suykens and Vandewalle, 1999) is an efficient supervised learning approach in the field of machine learning, and has been widely used for classification and regress ana- lysis. The basic idea of SVM is to transform the input data into a high dimensional feature space and then determine the optimal sepa- rating hyperplane. For more details about SVM, see Cristianini and Shawe-Taylor (2000) and Vapnik (1999).
In this study, the LIBSVM package (Chang and Lin, 2001) with RBF kernel was used to implement SVM, in which there are two parameters: one is the regularization parameter C, and the other is the kernel width parameter c. Thus, there are a total of five uncer- tain parameters when using SVM on the PseKNC model, while three uncertain parameters on the DACC model. All these parameters were optimized on the validation sets
摘要:研究动机:减数分裂和基因重组是细胞繁殖和生长的两个不可或缺的方面,并且它们在整个DNA系统存着。随着在后基因组时代中基因组序列呈雪崩式大量增长,获得DNA重组位点的信息将是一个非常紧迫的挑战,因为在减数分裂、基因重组和基因组进化过程的机制中,它可以适时地提供一些非常有用的信息。
研究成果:为了解决这样的挑战,我们通过将基于不同k-tuple分布的伪核苷酸组成和基于二核苷酸的自交叉协方差的模型使用聚类方法融合成集成分类器,开发了一种称为spot-EL的预测器。在一个广泛使用的基准数据集上采用五折交叉测试表明,新的预测器明显优于其现有的对手。特别地,远远超出它们所设定的能力范围,新的预测器可以轻松地用于进行全基因组分析,并且所得的结果与实验图相当的接近。
可用性和实现:为了大多数实验科学家的方便,一个使用iRSpot-EL预测器方法的人性化的网络服务器已经建立在:通过它用户可以很容易地获得他们想要的结果而不需要亲自去涉及这些复杂的数学方程。
补充信息:辅助数据可从Bioinformatics在线获取。
1基本简介
基因的重组在遗传进化中起着非常重要作用,它描述了在二倍体生物体中每一代遗传信息的交换过程。基因的重组创造了许多新的遗传性变异的组合,它不但是生物多样性的重要来源,而且可以加速生物进化的过程。对基因重组位点的研究也可以提供一些非常有用的信息,使其用于深入了解细胞的繁殖和生长。因此,开发一个用于预测重组位点的预测器将会有非常高的研发价值。
事实上,在这方面已经有了很多的成就。 例如,基于有缺口的二核苷酸的组成特征,Jiang等人(2007)开发了一种称为RF-DYMHC的预测器来完成这项工作。同样的,Liu等人(2012)使用kmer方法和离散增量结合二次判别分析的方法,开发了IDQD方法预测器。然而,上述的两种预测器算法仅使用了局部的DNA序列信息作为试验,因此它们的预测质量可能受到一些限制。为了改善这种情况,最近出现了两个新的预测器算法iRSpot-PseDNC(Chen等人2013)和iRSpot-TNCPseAAC(Qiu 等人2014)。前者基于DNA的局部结构特性(Chen等人2012)和伪二核苷酸结构(Chen等人2014);而后者基于DNA三核苷酸结构(Chen等,2014)以及相应的伪氨基酸结构(Chou,2001)。 减数分裂和基因重组英文文献和中文翻译(3):http://www.youerw.com/fanyi/lunwen_205051.html