LibSVM面向数码领域的垃圾评论信息的识别研究(7)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

LibSVM面向数码领域的垃圾评论信息的识别研究(7)


选用不同的核函数可以构造不同的支持向量机。常用的满足Mercer条件的核函数有以下几种[32]:
(1)线性核函数
该函数的基本形式:
构造的支持向量机的判别函数:
(2)RBF函数
该函数的基本形式:
构造的支持向量机的判别函数: ,其中, 个支持矢量 可确定径向基函数的中心位置, 是中心的数目。
(3) 次多项式函数
该函数的基本形式:
构造的支持向量机的判别函数: ,其中 为支持矢量的个数。
(4)Sigmoid函数
该函数的基本形式: ,其中,S形函数采用双曲正切函数 。式中的 和 的取值适当时才满足Mercer条件,可能的情况是 。此时构造的支持向量机的判别函数为:
这是常用的3层神经网络的判别函数,其隐节点对应支持向量。
3.2     LibSVM工具
3.2.1    LibSVM工具简介
LibSVM是台湾大学林智仁(Lin Chih-Jen)等开发设计的一个简单、易于使用的、快速、有效的SVM模式识别与回归的软件程序,它可以用来解决分类问题(包括C - SVC、n - SVC )、回归问题(包括e - SVR、n - SVR )以及分布估计(one-class-SVM )等问题。该软件对大部分参数的设置都是默认的,调节相对较少,并且提供了交互检验的功能(Cross Validation)。通过综合考虑,本文决定将LibSVM作为研究商品评论分类的工具。LibSVM是一个开源的软件,需要者可以在http://www.csie.ntu.edu.tw/~cjlin/上免费获得。它不但提供了LibSVM的源代码,方便使用者依据自己的需要对其进行改进、修改或者其他应用,而且还提供了编译好的基于Windows操作系统的执行文件。
3.2.2    LibSVM数据格式
特征模板就是针对特定任务的特征函数生成提供一个统一的模式,通过特征模板的使用可以方便的获取特征函数。对于LibSVM工具来说,它需要有一个统一的标准的数据格式。其标准数据格式如下:
Label 1:value 2:value …
Label:是类别的标识,可以是1,-1。也可以自己随意定,比如-10,0,15。当然,如果是回归,这是目标值,就要实事求是了。
Value:就是要训练的数据,从分类的角度来说就是特征值,数据之间用空格隔开。
比如: -15 1:0.708 2:1056 3:-0.3333
需要注意的是,如果特征值为0,特征冒号前面的(姑且称作序号)可以不连续。如:-15 1:0.708 3:-0.3333表明第2个特征值为0,从编程的角度来说,这样做可以减少内存的使用,并提高做矩阵内积时的运算速度。因此,可以编写程序来简化数据。
3.3     基于SVM的垃圾评论识别实验设计
本节主要的是针对各大类型网站上的抓取的商品评论信息,利用SVM模型进行垃圾评论信息的识别,也就是二分类的过程。
(1)实验方案
本文是对垃圾评论和非垃圾评论的识别,主要是利用各种词典,之后运用SVM模型进行评论分类识别。在这个过程中,为了更好的提高模型的识别效果以及实验的合理性,本文设计了以下几个实验:
实验一:评论长度特征阈值确定实验。
通过多位实验者对多网站上评论长度进行观察、记录,从而选择合适的评论长度阈值作为模型中的一个特征。
实验二:标准数据集构建实验。
将多位实验者分为三组,每组分别对评论信息进行标注,比较每一条评论的标注,选择三组中比较多的结果作为最终的标注结果。
实验三:多种SVM核函数模型的测试比较
通过对使用不同的核函数对同一组训练集和预测集进行训练与测试,比较不同核函数的识别效果。
实验四:参数优化实验
使用实验三中识别效果较好的核函数,对进行参数优化,使用优化后的参数对训练集和预测集进行测试,比较最终的结果。 (责任编辑:qin)