垃圾评论的识别属于信息过滤的一种,即从庞大的信息库中,找到符合既定特征的目标信息。垃圾评论的识别是在目标信息库中,根据用户需求,保留用户需要的信息,去除对用户无用或者有害的信息。在当前的垃圾评论自动识别研究中,应用最为广泛的是文本二值分类技术,即:一条评论信息只可以可以看做两种极端的分类:垃圾评论和非垃圾评论。22104
目前国内的研究垃圾评论的识别方法主要为:
(1)人工识别
主要是借助机器系统来识别垃圾评论,而目前在国内使用最多的是全自动区分计算机和人类的图灵测试(CAPTCHA)。该系统提供图形验证码和语音验证码两种方式,全自动区分计算机和人类的图灵测试系统会根据用户输入评论文字,在提交时,根据该系统给出的图片上的验证码,要求用户输入相应的验证码,这样做的好处就是可以很好地区分出评论信息是人为发出的还是机器程序给出的。这种方式可以避免有极其程序产生的大量垃圾评论信息,进而有效的控制恶意垃圾评论的产生。但是该方法的弊端在于验证码方式无法有效的避免人工手动产生的垃圾评论信息,而且,验证码方式在用户输入评论信息的该过程中,也会给用户产生不友好的印象。而针对评论信息中充斥的链接垃圾评论,“no follow”标签是很好的一个解决方式,它是由Google公司、Yahoo公司和微软公司一起提出的一个标签,超级链接加上这个标签后就不会计算权值,通过向评论中的链接添加“no follow”属性来防止垃圾评论。因为垃圾评论的主要目的在于增加反向链接,但是搜索引擎不会对应用了“no follow”标签的超链接进行评分和抓取[13]。论文网
人工识别垃圾评论的方法有很多的局限性,他需要很多的人力去进行人工干预和文护,而且,方法对于用户来说也不够友好,会影响到许多新闻读者发表看法的积极性。
(2)自动过滤识别
目前对于垃圾评论的研究,主要识别方式是基于关键词的过滤技术,其方式是:先根据评论信息建立评论信息库,选取样本进行垃圾评论手动识别,然后根据垃圾评论的特征,建立垃圾评论关键词库和特征值库,再对评论信息库中的评论信息进行垃圾评论特征值和关键词匹配,对于具有显著垃圾评论特征值或者关键词的评论信息,我们可以认为其就是垃圾评论。但是这种方法的局限性在于特征值库的建立需要耗费很大的人力物力,并且特征值库并不能针对所有的垃圾评论,而且特征值得选择需要跟随时间的变化而改变。
此类方法在现在各种文献中提及的比较多,例如Jindal N等人提到了利用样本训练集构造二类分类器对产品评论进行分类识别,针对难以人工标注的评论,通过计算重复性来进行初步识别,然后再将这部分识别出的垃圾评论添加到训练集中,通过已生成的分类器进一步学习这些评论,从而能过滤掉新出现的相似垃圾评论[5]。
现有垃圾评论识别方法的主要缺陷
上述垃圾评论的预防方法,从正面的角度来说,其存在都会对垃圾评论的产生起到一定的遏制作用。但是,从消极的方面来看,上述种种的预防方法都存在一定的缺陷。第一,由于设置要求用户创建并使用自己的账号来登陆网络新闻评论平台,这样在避免一部分垃圾评论的发布的同时,也会使得有些用户因为怕麻烦,不愿意去创建账号来发表自己的评论,从而导致一部分正常的评论无法有效地发布出去。第二,对于频繁产生垃圾垃圾评论的IP地址进行限制,一方面需要投入许多的人力物力来进行监管,造成不必要的资源浪费;另外一方面,垃圾评论产生着也会跟进技术支持,使用代理服务器来有效的预防IP地址的限制,从而使IP地址限制彻底的失去作用。第三,是根据垃圾评论的特征来设置垃圾评论的特征词库,根据特征词库有效地识别垃圾评论,从而达到控制垃圾平的目的。但是此类方法需要不断的更新和文护特征词库,会需求大量的人力物力来文持特征词库,成本非常高 垃圾评论国内外研究现状:http://www.youerw.com/yanjiu/lunwen_14591.html