LibSVM面向数码领域的垃圾评论信息的识别研究(7)

选用不同的核函数可以构造不同的支持向量机。常用的满足Mercer条件的核函数有以下几种[32]：
（1）线性核函数
该函数的基本形式：
构造的支持向量机的判别函数：
（2）RBF函数
该函数的基本形式：
构造的支持向量机的判别函数：，其中，个支持矢量可确定径向基函数的中心位置，是中心的数目。
（3）次多项式函数
该函数的基本形式：
构造的支持向量机的判别函数：，其中为支持矢量的个数。
（4）Sigmoid函数
该函数的基本形式：，其中，S形函数采用双曲正切函数。式中的和的取值适当时才满足Mercer条件，可能的情况是。此时构造的支持向量机的判别函数为：
这是常用的3层神经网络的判别函数，其隐节点对应支持向量。
3.2   LibSVM工具
3.2.1   LibSVM工具简介
LibSVM是台湾大学林智仁（Lin Chih-Jen）等开发设计的一个简单、易于使用的、快速、有效的SVM模式识别与回归的软件程序，它可以用来解决分类问题（包括C - SVC、n - SVC ）、回归问题（包括e - SVR、n - SVR ）以及分布估计（one-class-SVM ）等问题。该软件对大部分参数的设置都是默认的，调节相对较少，并且提供了交互检验的功能（Cross Validation）。通过综合考虑，本文决定将LibSVM作为研究商品评论分类的工具。LibSVM是一个开源的软件，需要者可以在http://www.csie.ntu.edu.tw/~cjlin/上免费获得。它不但提供了LibSVM的源代码，方便使用者依据自己的需要对其进行改进、修改或者其他应用，而且还提供了编译好的基于Windows操作系统的执行文件。
3.2.2   LibSVM数据格式
特征模板就是针对特定任务的特征函数生成提供一个统一的模式，通过特征模板的使用可以方便的获取特征函数。对于LibSVM工具来说，它需要有一个统一的标准的数据格式。其标准数据格式如下：
Label 1:value 2:value …
Label：是类别的标识，可以是1，-1。也可以自己随意定，比如-10，0，15。当然，如果是回归，这是目标值，就要实事求是了。
Value：就是要训练的数据，从分类的角度来说就是特征值，数据之间用空格隔开。
比如: -15 1:0.708 2:1056 3:-0.3333
需要注意的是，如果特征值为0，特征冒号前面的（姑且称作序号）可以不连续。如：-15 1:0.708 3:-0.3333表明第2个特征值为0，从编程的角度来说，这样做可以减少内存的使用，并提高做矩阵内积时的运算速度。因此，可以编写程序来简化数据。
3.3   基于SVM的垃圾评论识别实验设计
本节主要的是针对各大类型网站上的抓取的商品评论信息，利用SVM模型进行垃圾评论信息的识别，也就是二分类的过程。
（1）实验方案
本文是对垃圾评论和非垃圾评论的识别，主要是利用各种词典，之后运用SVM模型进行评论分类识别。在这个过程中，为了更好的提高模型的识别效果以及实验的合理性，本文设计了以下几个实验：
实验一：评论长度特征阈值确定实验。
通过多位实验者对多网站上评论长度进行观察、记录，从而选择合适的评论长度阈值作为模型中的一个特征。
实验二：标准数据集构建实验。
将多位实验者分为三组，每组分别对评论信息进行标注，比较每一条评论的标注，选择三组中比较多的结果作为最终的标注结果。
实验三：多种SVM核函数模型的测试比较
通过对使用不同的核函数对同一组训练集和预测集进行训练与测试，比较不同核函数的识别效果。
实验四：参数优化实验
使用实验三中识别效果较好的核函数，对进行参数优化，使用优化后的参数对训练集和预测集进行测试，比较最终的结果。 LibSVM面向数码领域的垃圾评论信息的识别研究(7):http://www.youerw.com/jisuanji/lunwen_9205.html