垃圾评论识别研究现状

在ISI web of science中使用TS=(consumer reviews or goods reviews or product reviews or consumer comments or goods comments or product comments)检索式进行检索后，选择学科类别computer science ，得到相关文献2716篇，之后在上面的基础上，检索TS=(review spam OR opinion spam OR fake reviews OR bogus reviews OR fake comments)，得到相关文献仅有16篇。主要的情况如图1.1所示：10210
图1.1 文献数与引文数
由文献分析可知，对商品评论研究是比较多的，但是对其中的垃圾评论的研究还是比较少的，研究者们在2007年之后，才逐渐关注到商品评论中垃圾评论的识别问题。有关商品评论中垃圾评论的识别问题研究已经逐渐成为一个研究热点，如何有效识别垃圾评论也成为一个难题。
目前国内外对垃圾评论识别方法的研究主要如下：
链接垃圾是垃圾信息中被关注的比较早的，Gilad等[3]在2006年提出了一种基于语言模式的算法，它能有效识别链接垃圾。该算法比较文章、评论、评论内链接所指向的Web页面这三类文本的语言模式，计算字串的概率分布交叉熵(Kullback-LeiblerDivergence) 来判别垃圾链接。Yuan Niu等[4]在2007年提出了基于上下文分析博客的文章和评论，识别那些网址重定向、伪装成合法博客评论的垃圾信息，取得了很好的效果。
杨宇航等[5]人在2007年提出了一种基于内容分析的作弊评论识别方法。该方法不需要训练集，而是充分利用了评论信息的多种重要特征，如：评论内容重复指数、评论中包含的链接数量、评论与文章的相似度等特征。他们分析评论的各个特征，加权得出评论的分值，然后根据评论分值判断是否为垃圾评论。
何海江等[6]人在2008年抽取文章和评论中的关键词，构建常用词集合和不良词集合，在向量空间的基础上构造了一个相关模型，将博客的文章和评论分别分词后, 根据模型计算评论和文章的相关度,来判断是否为垃圾评论。该模型不需要训练样本,在一个中文博客的测试集上,召回率和准确率分别达到82%和91%。2009年期间，何海江[7]提出了一种相关度向量空间模型cVSM，用此模型来衡量评论与文章之间的语义相关程度，以此方法识别出评论的类别，然后用这部分识别出类别的评论作为训练集，抽取评论的特征，最后采用支持向量机（SVM）分类算法自动识别其他数据集的评论，该方法显著地提高了垃圾评论的识别能力。之后何海江[8]在评论识别时，采用基于Logistic回归（LR）的分类器来区分合法评论和垃圾评论，并提出相关度向量空间模型cVSM作为评论的文档表示模型，该文档表示模型不仅能表示文档的特征词，还能表示出评论与文章的相关程度。在文中讨论不同特征抽取方法对模型的影响。实验结果表明，LR的训练时间不到SVM的1/10；DF和IG比MI和CHI表现更好；与传统的向量空间模型相比，使用cVSM 显著提高垃圾评论识别能力。
Archana Bhattarai等[9]人在2009年研究了博客垃圾评论的垃圾特征，从文章-评论相似度、词重复、锚文本数量、名词集中度、停用词比例、句子个数和垃圾相似度等方面对评论进行了垃圾特征统计，并提出了对识别不好或是无法识别的评论，利用co-training思想从已给的数据中主动学习的方法，从而提高了垃圾评论识别的效果。
Jindal等[10,11]人在2007年就提出利用训练集构造二类分类器的方法对产品评论信息进行分类（垃圾信息和非垃圾信息），对于第2和第3种类型的垃圾评论信息，用人工标注垃圾和非垃圾信息这种传统的分类学习法来识别它们，对于第1种类型的垃圾评论，通过对重复性的评论来进行初步识别，然后再将这部分识别出的垃圾评论作为正训练集，其他作为反的训练集建立机器学习的模型来识别第一类垃圾评论信息。垃圾评论识别研究现状:http://www.youerw.com/yanjiu/lunwen_9206.html