第 2 章    生物识别方法综述

2。1    生物识别的一般流程

生物识别广泛应用于基因组学和蛋白质组学中。在绪论中,我们提出在构建预测 程序过程中要明确如何构数据集、如何构建模型、如何选取分类算法以及如何评价, 这四点也正是生物识别的一般流程。

图 2-1 生物识别的一般流程

2。2    数据集构建和特征提取

生物识别中,数据集一般分为训练数据集和测试数据集。顾名思义,计算过 程中,这两个数据集各自进行特征抽取,用训练数据集中提取的数据对分类程序进行 训练,由训练完成的预测程序进一步对测试数据集中的数据进行测试。一个准确的数 据集是构建有效预测程序的基础和保证。

对于机器学习和数据挖掘算法,输入向量的质量对算法性能的高低起着决定性的 作用。特征提取技术能够通过去除无关、冗余的属性筛选出与序列样本相关度最高的 属性子集,进而有效削弱向量维度过高所带来的负面影响。此外,几乎所有的现存机 器分类算法都只能处理定长的向量,因而特征提取在生物识别过程中是必不可少的。

2。3    分类器

现有的机器学习算法已经可以直接处理基于向量模型计算的样本,如最优化算法、 相关系数方法、协方差判别式(CD)、局部线性嵌入算法、神经网络算法、支持向量 机算法(SVM)、条件随机域算法、随机森林算法、近邻算法(NN)、K-近邻算法(KNN)、 多标签 K 近邻(ML-KNN)算法、模糊 K 近邻算法等等。相反,对于原始的序列样 本,机器学习算法反而无法处理,这也侧面表明了建立准确向量模型的重要性。文献综述

分类结果将依赖于所使用的分类算法,本课题中采用支持向量机(Support Vector Machine/SVM)作为分类程序。支持向量机算法由 V。Vapnik 提出,是一种基于统计学 习理论(Statistical Learning Theory/SLT)的机器学习算法。支持向量机属于一般化的 线性分类器,通过结构化的风险最小化函数来提高分类和回归算法的泛化能力。这类 分类器能够在最小化经验误差的同时最大化几何边缘区,因此也被称为最大边缘区分 类器。由于支持向量机在二分类方面分类性能优异,而且能够处理高维数据,因此广 泛应用于生物信息学领域[8,9,10]。

SVM 的基本理念是构建一个或多个高维(甚至是无限多维)的超平面来对空间 中的点进行分类,这个超平面即为分类边界。分类边界与相距最近的训练资料点之间 的距离称为分类间隔(Margin),分类间隔越大,分类器的泛化误差越小,分类效果 也就越好。支持向量机的目标即为寻找间隔最大的超平面作为分类边界。

距离超平面最近的两个点被称为支持向量。支持向量机的分类边界可以由支持向 量决定,而与空间中其他点无关。这也是这些点称为“支持向量”的原因。

分类的一般过程是由 SVM 首先在训练数据集的基础上构建一个超平面,然后通 过核心函数,将输入向量映射到一个高维希柏特空间(Hillbert Space)中,从而将低 维空间中原本线性不可分的数据集变为线性可分。具体的转换由核心函数决定。

本课题中使用的 SVM 程序为 LIBSVM,该程序是支持向量分类、回归和分布估 计的集成软件,支持多类分类[11]。计算过程中,从样本中提取的特征向量作为 SVM 分类器的输入,经由相关数据集训练的分类器能够非常准确地对其进行分类。来:自[优.尔]论,文-网www.youerw.com +QQ752018766-

2。4    测试评价

对于预测程序的开发研究,如何准确客观地评价它的预测质量是研究过程中非常 重要的一个环节。

上一篇:HOG多特征的行人检测AdaBoost分类算法
下一篇:Node.js在线判题自动阅卷系统设计与实现

基于消费者个性特征的化...

最小二乘法生物数字特征间的关系

基于颜色特征的图像检索系统研究

HTML5伪云桌面资源整合系统设计

粗糙集的特征选择及其分...

PseDNC特征的RNA甲基化识别研究

基于颜色特征的多肉图像检索

互联网教育”变革路径研究进展【7972字】

我国风险投资的发展现状问题及对策分析

老年2型糖尿病患者运动疗...

ASP.net+sqlserver企业设备管理系统设计与开发

新課改下小學语文洧效阅...

网络语言“XX体”研究

麦秸秆还田和沼液灌溉对...

安康汉江网讯

张洁小说《无字》中的女性意识

LiMn1-xFexPO4正极材料合成及充放电性能研究