垃圾评论识别研究现状(2)
时间:2017-06-15 19:51 来源:毕业论文 作者:毕业论文 点击:次
2010年他们又提出了根据用户的打分( rating ) 行为定义的4 种模型[12]: 1) 以某一个产品为目标发表垃圾评论(Targeting Product, TP),针对某一产品发表垃圾评论, 一个用户对同一个产品重复打分的次数越多, 并且每次打分差距较大, 评论内容相似度越高, 该用户是垃圾评论发表者的可能性就越大; 2) 以某一类产品为目标发表垃圾评论(Targeting Group, TG),针对某一类产品(如同一个品牌的数码相机,同一个出版社出版的图书) 在一个时间窗内连续发表垃圾评论, 从过高的打分和过低的打分两方面进行建模; 3) 总体打分偏差( General rating Deviation, GD),即一个用户对某一产品的打分与所有用户打分的平均值之间的偏差,偏差越大,越有可能是垃圾评论发表者; 4) 早期打分偏差( Early rating deviation, ED),与GD类似, 与打分的时间顺序有关。 Jindal等[13,14]人在2010年通过挖掘用户的行为, 发现反常的评论模式来分析用户是垃圾评论发表者的可能性。例如, 一位用户对同一个产品重复的发表正向的评论, 则其行为可疑性较大, 有很大可能是垃圾评论发表者。 Bing Liu等[15]人在2010年中他们又使用三个步骤来检测群体评论垃圾。首先找到使用Frequent Pattern Mining找出候选的群体,之后计算垃圾信息的指示值,最后使用SVM算法进行排名,从而检测出群体垃圾评论。 Wu Guang yu 等[16]人利用正向的singletons(评论发表者发表的唯一的一条评论)在一个产品的所有评论中所占的比例和这些singletons 时间聚集程度来分析评论发表者的可疑行为。 刁宇峰等[17]人首先借鉴处理垃圾邮件的方法, 针对Blog本身的特点, 使用规则初步过滤垃圾评论, 然后对剩余评论, 利用Latent Dirichet Allocation(LDA) 这种能够提取文本隐含主题的产生式模型, 对博客中的博文进行主题提取, 并结合主题信息进行判断, 从而识别Blog 空间的垃圾评论。通过实验验证, 该方法可以发现大多数垃圾评论, 实验取得了较好的结果。 Myle Ott等[18]人研究了那些被人谨慎的故意写的貌似真实的垃圾评论。他们从心理学和计算机语言学出发,开发并比较了三种检测欺骗性的垃圾评论的方法,最终开发了一个在他们自己的比较标准的垃圾评论的数据集准确度达90%的分类器。在以上研究的基础上,又揭示了欺骗性的意见和虚构的写作之间的关系。 目前垃圾评论识别方法存在的问题 (1)人们在电子商务网站上的发表评论信息的目的多种多样,具有很大的主观性和随意性,所以评论的形式也是非常多样化的。由于网络的飞速发展,互联网之上新词的涌现,网站上的评论信息更新的速度也是非常快的,这就会对训练集造成影响。因为评论信息和新词的更新会影响到特征词,特征词在不断变化,会影响分类器对垃圾评论的识别,降低垃圾评论识别的准确度。因此,就需要重新训练样本。训练样本需要对新数据进行人工标注,重新计算特征项的权重,重新抽取特征词并重新训练分类器。这一过程不仅会花费大量的时间和人力,也会影响分类系统的效率[19]。 (2)训练集的人工标注比较困难。因为有些垃圾评论是人工难以识别的。例如,来自于不同ID的同一用户的评论;来自于一个团体的垃圾评论等。 (3)学者使用重复的评论作为训练集,虽然在垃圾识别过程中有明显的效果,但是却遗漏了一部分非重复的垃圾评论。 (4)与使用训练集训练分类器来识别垃圾评论的方法相比,利用文本相似度的方法不需要训练集,比较简单,对表达有相同意思或相近意思有比较好的效果,但是对于不同词语的相似评论进行识别时,效果并不好。这是因为传统的文本相似度公式无法识别出具有意思相近却完全不同类型的词语,例如近义词。若较长文本评论中没有出现那些在文章或常用词集中的词, 但存在着意思相近的词语, 可是这些近义词会被传统的相似度公式认为是不同的词, 所以将会被判定为垃圾评论.。所以在利用传统的余弦相似度公式计算评论-文章相似度时,其值会相对较低,造成了评论分类的不准确[19]。 (责任编辑:qin) |