2。6 性能指标
在本次实验中,主要的性能指标有四个,分别是Mcc(Matthew correlation coefficient 马修斯相关系数)、Acc(Accuracy 准确度)、Sn(Sensitivity 灵敏度)、Sp(Specificity 明确度)。它们被定义为:
其中,TP表示被正确判断为正样本的正样本数;FP表示被错误判断为正样本的负样本数;TN表示被正确判断为负样本的负样本数;FN表示被错误判断为负样本的正样本数。
将(2-3)公式化简,并定义新的字符表示,化为如下形式:文献综述
用代替TP,代替FN,代替TN,代替FP,显然,表示所有的正样本数。同理,表示所有的负样本数。根据此式,我们可以很容易的得出以下的结构。
当时,即所有的正样本都被正确判断为正样本时,Sn=1;当时,即所有的正样本都被错误判断为负样本时,Sn=0;Sn是对正样本的评价指标。
同样,当时,即所有的负样本都被正确判断为负样本时,Sp=1;当时,即所有的负样本都被错误判断为正样本时,Sp=0;Sp是对负样本的评价指标。
当==0时,即所有的样本都被正确判断时,、;当且时,即所有的样本都被错误判断时,、;Acc和Mcc是对整个数据集的评价指标。所以我们在比较预测器性能的时候,主要对比Acc和Mcc的值。
第三章 特征提取方法
目前,RNA序列的特征提取方法主要有两大类:第一类是基于核酸统计特征的特征提取方法,主要包含核酸组成成分法、单核苷酸位置特异性法、二核苷酸位置特异性法;第二类是基于RNA物化属性特征的特征提取方法,主要含有自相关系数法、协相关系数法、伪核苷酸组成成分法。
3。1 核酸统计特征的特征提取法
统计每条RNA序列上核苷酸出现的频率,用频率对RNA序列进行特征表示。或统计RNA序列每个位置上的每种核苷酸出现的次数,从而得到每个位置上每种核苷酸出现的频率,用这些频率表示RNA序列的位置特异性,根据位置特异性对RNA序列进行特征表示。
3。1。1 核酸组成成分法
核酸组成成分法是通过计算每条RNA序列上的每种核苷酸出现的频率,用核苷酸的频率来表示RNA序列的一种特征提取方法。核酸组成成分法求出的特征向量可以捕获短程或本地序列的次序信息,并被广泛用于研究RNA序列的特点[32]。来.自^优+尔-论,文:网www.youerw.com +QQ752018766-
我们将求RNA序列上的单核苷酸出现频率的方法称为单核苷酸组成成分法,类似有二核苷酸组成成分法,三核苷酸组成成分法等。
我们可以用(2-2)公式对2614数据集中任意一条RNA序列进行表示,如下:
每个都代表{A, C, G, U}中的一个;L为整数,代表RNA序列的长度。
若使用单核苷酸组成成分法对RNA序列进行特征提取,则计算这条RNA序列中出现的A、C、G、U频率,用它们出现的频率表示序列。特征向量如下所示:
其中,表示A出现在RNA序列上归一化后的频率;表示C出现在RNA序列上的归一化后的频率;表示G出现在RNA序列上的归一化后的频率;表示U出现在RNA序列上的归一化后的频率。于是序列,就被转化为一个14的特征向量。
同样,若使用二核苷酸组成成分法,则计算这条RNA序列中出现的每种二核苷酸(AA,AC,AG,AU,CA,CC,CG,CU,GA,GC,GG,GU,UA,UC,UG,UU)频率。从RNA样本序列R的左边开始统计二核苷酸,求出所有二核苷酸在R上的频率。