话题检测技术其目的在于在没有人工干预的条件下自动识别出媒体信息流的主题,其源于1996年美国国防部高级研究计划署提出的一项计划。此项计划的整体为话题检测和跟踪(TDT)[3],它是一种智能技术,旨在发现大量数据中潜藏的新闻信息并持续跟踪信息的后续发展。
情感分析,即我们进行相关文档的观点分析、主客观分析等,我们进行情感分析的目的是从文本中挖掘出文本发布者想要表达的观点以及文本情感的相关极性。自从2002年由Bo Pang[4]提出情感分析的相关概念之后,吸引了很多感兴趣的研究者进行
相关的研究,特别是在对有很大商业价值的在线评论的情感倾向性分析上获得了很好的研究成果,目前基于在线评论文本的情感倾向性分析的准确率最高能达到90%以上,但是由于深层情感分析必然要涉及到文本相关语义的分析,以及文本中经常出现的情感转移现象等难题,所以基于深层语义的情感分析以及篇章级的情感分析进展一直不是很大。
1.2研究现状
1.3研究的内容和意义
1.3.1研究内容
本文主要的内容是研究微博数据的提取、微博话题的检测以及微博文本情感的分析。前期的准备工作主要是仔细研究新浪微博等相关内容,为何它们在如此之短的时间内积攒了那么多的用户,常见的WEB数据提取方法,常用的数据挖掘算法,文本挖掘算法,并结合新浪微博开放的API进行数据提取。对话题检测的进行研究,主要聚焦于传统的文本上,并对热门话题微博文本进行情感分析。
1.3.2研究意义
2014年4月17日,“微博”正式在美国纳斯达克交易所挂牌上市,为中国(中文)社交媒体在NASDAQ上市的第一支股票。新浪微博市场副总裁葛景栋表示:新浪微博将继续朝着“公共议事厅”新闻传播、社交角度去发展,并将更好地通过推出粉丝服务平台,让很多媒体微博、政务微博把微博变成沟通的平台,实现其使用效能[11]。从微博市场负责人的以上表态中可以知道,新浪微博的社交媒体属性还将不断的加强,而作为舆论和各种信息汇聚的大熔炉的微博平台,有太多的社会价值和商业价值值得我们好好研究。如果在如此大的用户和数据产生的微博平台,能检测出微博大数据中的话题,并对话题相关的微博内容进行情感倾向性分析,具有很大和社会价值和商业价值。在商业方面可以定向的对话体进行广告投入,吸引更多的买家,一次增加运营商的收入;在社会方面,可以了解到某个热门话题发生后微博用户的情感倾向,有利于引导和掌握舆情。
1.4论文组织结构
本文分优尔章进行相关研究内容的介绍。
第一章 绪论 包括本文的研究背景,研究现状、研究的内容和意义、论文的组织结构。
第二章 相关背景知识介绍 涉及微博的发展历程、新浪微博及其特性、数据挖掘、WEB挖掘、情感分析的简要介绍。
第三章 微博数据提取相关方法的研究 此章主要介绍微博数据的提取方法。本文主要利用新浪微博提供的开放的API接口获取微博数据,还涉及OAouth2.0协议认证,新浪微博数据提取接口调用,以及本文的抓取结果及分析等介绍。
第四章 微博话题检测方法研究 本章主要介绍数据提取及前期处理、模型化方式表示文本及对获得的微博文本数据的相关处理。
第五章 热门话题文本的情感分析 本章介绍情感信息如何分类、微博内容的情感分析研究的理论基础,在此将介绍机器学习方法中的SVM分类器和朴素贝叶斯分类器。将提取的文本经处理后表示成可以由weka处理的格式,经朴素贝叶斯分类器等得到相应的实验结果。 微博热门话题提取和分析技术研究(3):http://www.youerw.com/jisuanji/lunwen_16050.html