摘要垃圾评论的识别已经成为了商品评论研究的热点。本文以网络上的评论信息作为研究对象,从情感相关和利益相关两个方面出发,分析了评论的发表动机。之后从信息的有用性角度,将评论信息分类有用和无用两类,并对两类信息进行详细的分析与分类,比较垃圾评论与无用评论的区别与联系。通过对目前的垃圾评论识别的方法进行深入的分析,了解各种方法所存在的问题。最后实验选择了SVM算法,构建标准数据集,选择评论特征,结合LibSVM工具,对抓取的评论信息进行的垃圾评论识别。实验过程中对比了SVM中的四种核函数,选择了 较高的RBF核,对其进行参数优化,从而提高对评论识别的准确率。10210
关键词 支持向量机;核函数;垃圾评论;参数优化;
毕 业 论 文 外 文 摘 要
Title Research on Identifying Reviews Spam for Digital Field
Abstract
The identification of reviews spam has become a hotspot of product reviews research. This article uses reviews information on the network as the object of study, taking the two aspects of emotion-related and benefit as the starting point, analyzing comments published motivation. And from the perspective of usefulness of the information, classify reviews information into two categories of the useful and the useless, and analyze and classify the two types in detail, compare the difference relation between spam comments and the useless. Through in-depth analysis of current methods of spam comments recognition, find out the problems of the methods. At last use SVM algorithm to build a standard data set, select the comment features, combine LibSVM tools, recognize the spam comments from the crawling comments. Compare the four kernel functions of the SVM in the experiment, choose the RBF of the higher F-measure, optimize its parameters to improve the accuracy of comments identify.
Keywords SVM; kernel function; reviews spam; parameter optimization;
目 次
1 绪论 1
1.1 研究背景 1
1.2 研究意义 1
1.3 垃圾评论识别研究现状 2
1.3.1 垃圾评论识别方法的研究现状 2
1.3.2 目前垃圾评论识别方法存在的问题 5
1.4 本文的主要研究内容与技术路线 6
1.4.1 本文主要研究内容 6
1.4.2 主要技术路线 7
2 评论信息分析 8
2.1 评论发表动机分析 8
2.2 信息的有用性准则 8
2.3 基于有用性的评论信息分类 9
2.4 垃圾评论 10
2.5 无用评论与垃圾评论的区别与联系 12
3 评论信息的分类方法 13
3.1 SVM算法 13
3.1.1 SVM基本思想 13
3.1.2 核函数 16
3.2 LibSVM工具 17
3.2.1 LibSVM工具简介 17
3.2.2 LibSVM数据格式 17
3.3 基于SVM的垃圾评论识别实验设计 18
4 基于SVM的垃圾评论信息识别实验 21
4.1 实验语料获取及预处理 21
4.2 特征选取 23
4.3 数据词典的构建 26
4.4 特征转化 27
4.5 实验一—评论长度阈值确定实验 28
4.6 实验二—标准数据集构建实验 29
4.7 实验三—多种SVM核函数模型的测试比较 30