摘要垃圾评论的识别已经成为了商品评论研究的热点。本文以网络上的评论信息作为研究对象,从情感相关和利益相关两个方面出发,分析了评论的发表动机。之后从信息的有用性角度,将评论信息分类有用和无用两类,并对两类信息进行详细的分析与分类,比较垃圾评论与无用评论的区别与联系。通过对目前的垃圾评论识别的方法进行深入的分析,了解各种方法所存在的问题。最后实验选择了SVM算法,构建标准数据集,选择评论特征,结合LibSVM工具,对抓取的评论信息进行的垃圾评论识别。实验过程中对比了SVM中的四种核函数,选择了 较高的RBF核,对其进行参数优化,从而提高对评论识别的准确率。10210
关键词  支持向量机;核函数;垃圾评论;参数优化;
 毕 业 论 文 外 文 摘 要
Title      Research on Identifying Reviews Spam for Digital Field    
Abstract
The identification of reviews spam has become a hotspot of product reviews research. This article uses reviews information on the network as the object of study, taking the two aspects of emotion-related and benefit as the starting point, analyzing comments published motivation. And from the perspective of usefulness of the information, classify reviews information into two categories of the useful and the useless, and analyze and classify the two types in detail, compare the difference relation between spam comments and the useless. Through in-depth analysis of current methods of spam comments recognition, find out the problems of the methods. At last use SVM algorithm to build a standard data set, select the comment features, combine LibSVM tools, recognize the spam comments from the crawling comments. Compare the four kernel functions of the SVM in the experiment, choose the RBF of the higher F-measure, optimize its parameters to improve the accuracy of comments identify.
Keywords  SVM; kernel function; reviews spam; parameter optimization;
目 次
1 绪论    1
1.1 研究背景    1
1.2 研究意义    1
1.3 垃圾评论识别研究现状    2
1.3.1 垃圾评论识别方法的研究现状    2
1.3.2 目前垃圾评论识别方法存在的问题    5
1.4 本文的主要研究内容与技术路线    6
1.4.1 本文主要研究内容    6
1.4.2 主要技术路线    7
2 评论信息分析    8
2.1 评论发表动机分析    8
2.2 信息的有用性准则    8
2.3 基于有用性的评论信息分类    9
2.4 垃圾评论    10
2.5 无用评论与垃圾评论的区别与联系    12
3 评论信息的分类方法    13
3.1 SVM算法    13
3.1.1 SVM基本思想    13
3.1.2    核函数    16
3.2    LibSVM工具    17
3.2.1    LibSVM工具简介    17
3.2.2    LibSVM数据格式    17
3.3    基于SVM的垃圾评论识别实验设计    18
4 基于SVM的垃圾评论信息识别实验    21
4.1    实验语料获取及预处理    21
4.2    特征选取    23
4.3    数据词典的构建    26
4.4    特征转化    27
4.5 实验一—评论长度阈值确定实验    28
4.6 实验二—标准数据集构建实验    29
4.7 实验三—多种SVM核函数模型的测试比较    30
上一篇:基于JADE的多agent在线研讨系统设计
下一篇:ASP.NET培训中心教务管理系统开发

数码动画新纪元MAYA【1869字】

提高网站茬Google中的排名...

超阅读:数码时代的文本变革【15688字】

jsp+mysql面向大众的医疗咨询平台设计与实现

面向微信公众平台的智能客服机器人设计

eclipse面向网络信息内容共...

面向精准营销的移动互联...

神经外科重症监护病房患...

国内外图像分割技术研究现状

AT89C52单片机的超声波测距...

志愿者活动的调查问卷表

承德市事业单位档案管理...

C#学校科研管理系统的设计

10万元能开儿童乐园吗,我...

医院财务风险因素分析及管理措施【2367字】

公寓空调设计任务书

中国学术生态细节考察《...