选用不同的核函数可以构造不同的支持向量机。常用的满足Mercer条件的核函数有以下几种[32]:
(1)线性核函数
该函数的基本形式:
构造的支持向量机的判别函数:
(2)RBF函数
该函数的基本形式:
构造的支持向量机的判别函数: ,其中, 个支持矢量 可确定径向基函数的中心位置, 是中心的数目。
(3) 次多项式函数
该函数的基本形式:
构造的支持向量机的判别函数: ,其中 为支持矢量的个数。
(4)Sigmoid函数
该函数的基本形式: ,其中,S形函数采用双曲正切函数 。式中的 和 的取值适当时才满足Mercer条件,可能的情况是 。此时构造的支持向量机的判别函数为:
这是常用的3层神经网络的判别函数,其隐节点对应支持向量。
3.2     LibSVM工具
3.2.1    LibSVM工具简介
LibSVM是台湾大学林智仁(Lin Chih-Jen)等开发设计的一个简单、易于使用的、快速、有效的SVM模式识别与回归的软件程序,它可以用来解决分类问题(包括C - SVC、n - SVC )、回归问题(包括e - SVR、n - SVR )以及分布估计(one-class-SVM )等问题。该软件对大部分参数的设置都是默认的,调节相对较少,并且提供了交互检验的功能(Cross Validation)。通过综合考虑,本文决定将LibSVM作为研究商品评论分类的工具。LibSVM是一个开源的软件,需要者可以在http://www.csie.ntu.edu.tw/~cjlin/上免费获得。它不但提供了LibSVM的源代码,方便使用者依据自己的需要对其进行改进、修改或者其他应用,而且还提供了编译好的基于Windows操作系统的执行文件。
3.2.2    LibSVM数据格式
特征模板就是针对特定任务的特征函数生成提供一个统一的模式,通过特征模板的使用可以方便的获取特征函数。对于LibSVM工具来说,它需要有一个统一的标准的数据格式。其标准数据格式如下:
Label 1:value 2:value …
Label:是类别的标识,可以是1,-1。也可以自己随意定,比如-10,0,15。当然,如果是回归,这是目标值,就要实事求是了。
Value:就是要训练的数据,从分类的角度来说就是特征值,数据之间用空格隔开。
比如: -15 1:0.708 2:1056 3:-0.3333
需要注意的是,如果特征值为0,特征冒号前面的(姑且称作序号)可以不连续。如:-15 1:0.708 3:-0.3333表明第2个特征值为0,从编程的角度来说,这样做可以减少内存的使用,并提高做矩阵内积时的运算速度。因此,可以编写程序来简化数据。
3.3     基于SVM的垃圾评论识别实验设计
本节主要的是针对各大类型网站上的抓取的商品评论信息,利用SVM模型进行垃圾评论信息的识别,也就是二分类的过程。
(1)实验方案
本文是对垃圾评论和非垃圾评论的识别,主要是利用各种词典,之后运用SVM模型进行评论分类识别。在这个过程中,为了更好的提高模型的识别效果以及实验的合理性,本文设计了以下几个实验:
实验一:评论长度特征阈值确定实验。
通过多位实验者对多网站上评论长度进行观察、记录,从而选择合适的评论长度阈值作为模型中的一个特征。
实验二:标准数据集构建实验。
将多位实验者分为三组,每组分别对评论信息进行标注,比较每一条评论的标注,选择三组中比较多的结果作为最终的标注结果。
实验三:多种SVM核函数模型的测试比较
通过对使用不同的核函数对同一组训练集和预测集进行训练与测试,比较不同核函数的识别效果。
实验四:参数优化实验
使用实验三中识别效果较好的核函数,对进行参数优化,使用优化后的参数对训练集和预测集进行测试,比较最终的结果。
上一篇:基于JADE的多agent在线研讨系统设计
下一篇:ASP.NET培训中心教务管理系统开发

数码动画新纪元MAYA【1869字】

提高网站茬Google中的排名...

超阅读:数码时代的文本变革【15688字】

jsp+mysql面向大众的医疗咨询平台设计与实现

面向微信公众平台的智能客服机器人设计

eclipse面向网络信息内容共...

面向精准营销的移动互联...

神经外科重症监护病房患...

国内外图像分割技术研究现状

AT89C52单片机的超声波测距...

志愿者活动的调查问卷表

承德市事业单位档案管理...

C#学校科研管理系统的设计

10万元能开儿童乐园吗,我...

医院财务风险因素分析及管理措施【2367字】

公寓空调设计任务书

中国学术生态细节考察《...