网络新闻评论研究垃圾评论的类型及发现策略研究
时间:2018-05-02 21:23 来源:毕业论文 作者:毕业论文 点击:次
摘要网络新闻垃圾评论的自动识别是当下互联网的研究热点之一,其研究的主要内容是根据已人工判定的垃圾评论所具有的的特点,来归纳得出垃圾评论的特征值。将待检测评论信息根据得出的特征值,并利用相关理论模型,进行模型运算,最终由机器判定该待检测评论是否为垃圾评论。其主要手段是根据评论本身与新闻主题之间的相关性、评论本身特征与垃圾评论信息特征的相关性来判定评论是否为垃圾评论。22104 本次课题主要是针对于网络新闻评论,通过分析垃圾评论的特点,给出垃圾评论的特征值,为垃圾评论的发现策略提供一定程度上的必要参考。 关键词 网络新闻;新闻评论;垃圾评论;发现策略 毕业论文外文摘要 Title The Network News Comments research-the type of spam comments and its discover strategy Abstract The automatic recognition of spam comments on Internet news is one of the hot issues in the Internet field. To point out the characteristics of spam comments, I mostly research on the spam comments and list the characters of them. The main research is to judge if it is a spam comment based on the relativity between the comment itself and the news topic, and the characteristics between the comment and the spam comment. The study points at comments on Internet news and analyses the characters of spam comment by figuring out the characteristic value of spam comment, which provides some references for the spam-catching method. There are some research techniques in this study, including information collecting, statistically analyzing, data processing, data classification and so on. The whole process of research proves my ability on study and research. Besides, it makes me used to applying scientific knowledge to analyzing and solve problems in practice. Keywords: Internet News, Comments, Spam Comments, Spam-Catching Method 目 次 1 引言 1 1.1 研究背景与意义 1 1.2 网络新闻发展现状 3 1.3 垃圾评论研究意义 4 1.4 垃圾评论研究现状 5 1.4.1垃圾评论的主要识别方法 5 1.4.2 现有垃圾评论识别方法的主要缺陷 6 1.5 本文主要研究内容 7 2 网络新闻评论相关研究概述 8 2.1 网络新闻评论 8 2.2 网络新闻评论特征 9 2.3 网络新闻评论中的垃圾评论研究 10 3 垃圾评论的识别模型概述 11 3.1 LDA主题模型 11 3.2 支持向量机模型 12 3.3 模型存在的缺陷 12 3.3.1 LDA模型的缺陷 12 3.3.2 支持向量机的缺陷 13 4 网络新闻评论中垃圾评论研究实证分析 14 4.1 数据抓取过程 14 4.2 数据分析 15 4.2.1 文本长度特征 15 4.2.2 关键词特征 16 4.2.3 评论属性特征 17 4.3 垃圾评论的类型分析 17 4.3.1 广告链接类垃圾评论 18 4.3.2 传递不健康类垃圾评论 18 4.3.3 无关主题类垃圾评论 19 4.4 垃圾评论的识别策略分析 19 (责任编辑:qin) |