摘要网络新闻垃圾评论的自动识别是当下互联网的研究热点之一,其研究的主要内容是根据已人工判定的垃圾评论所具有的的特点,来归纳得出垃圾评论的特征值。将待检测评论信息根据得出的特征值,并利用相关理论模型,进行模型运算,最终由机器判定该待检测评论是否为垃圾评论。其主要手段是根据评论本身与新闻主题之间的相关性、评论本身特征与垃圾评论信息特征的相关性来判定评论是否为垃圾评论。22104
本次课题主要是针对于网络新闻评论,通过分析垃圾评论的特点,给出垃圾评论的特征值,为垃圾评论的发现策略提供一定程度上的必要参考。
关键词  网络新闻;新闻评论;垃圾评论;发现策略
毕业论文外文摘要
Title   The Network News Comments research-the type of spam            
         comments and its discover strategy                                           
Abstract
The automatic recognition of spam comments on Internet news is one of the hot issues in the Internet field. To point out the characteristics of spam comments, I mostly research on the spam comments and list the characters of them. The main research is to judge if it is a spam comment based on the relativity between the comment itself and the news topic, and the characteristics between the comment and the spam comment.
The study points at comments on Internet news and analyses the characters of spam comment by figuring out the characteristic value of spam comment, which provides some references for the spam-catching method. There are some research techniques in this study, including information  collecting, statistically analyzing, data processing, data classification and so on. The whole process of research proves my ability on study and research. Besides, it makes me used to applying scientific knowledge to analyzing and solve problems in practice.
Keywords: Internet News, Comments, Spam Comments, Spam-Catching Method
目  次
1 引言    1
1.1 研究背景与意义    1
1.2 网络新闻发展现状    3
1.3 垃圾评论研究意义    4
1.4 垃圾评论研究现状    5
1.4.1垃圾评论的主要识别方法    5
1.4.2 现有垃圾评论识别方法的主要缺陷    6
1.5 本文主要研究内容    7
2 网络新闻评论相关研究概述    8
2.1 网络新闻评论    8
2.2 网络新闻评论特征    9
2.3 网络新闻评论中的垃圾评论研究    10
3 垃圾评论的识别模型概述    11
3.1 LDA主题模型    11
3.2 支持向量机模型    12
3.3 模型存在的缺陷    12
3.3.1 LDA模型的缺陷    12
3.3.2 支持向量机的缺陷    13
4 网络新闻评论中垃圾评论研究实证分析    14
4.1 数据抓取过程    14
4.2 数据分析    15
4.2.1 文本长度特征    15
4.2.2 关键词特征    16
4.2.3 评论属性特征    17
4.3 垃圾评论的类型分析    17
4.3.1 广告链接类垃圾评论    18
4.3.2 传递不健康类垃圾评论    18
4.3.3 无关主题类垃圾评论    19
4.4 垃圾评论的识别策略分析    19
上一篇:Android平台即时通讯软件的开发
下一篇:ASP的ERP沙盘教学网站的设计与开发

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

网络常见故障的分类诊斷【2055字】

网络安全的研究【1797字】

网络信息安全技术管理的...

Web技术的网络考试系统【2240字】

国内外图像分割技术研究现状

志愿者活动的调查问卷表

医院财务风险因素分析及管理措施【2367字】

10万元能开儿童乐园吗,我...

C#学校科研管理系统的设计

中国学术生态细节考察《...

承德市事业单位档案管理...

神经外科重症监护病房患...

公寓空调设计任务书

AT89C52单片机的超声波测距...