2.1.2 对社会进步的促进和对人们日常生活的影响.5
2.2 数据挖掘.6
2.2.1 数据挖掘的方法和算法6
2.2.2 数据挖掘的主要步骤6
2.3 WEB挖掘.6
2.4 情感分析.8
3 微博数据提取相关方法的研究.9
3.1 常用网络信息采集方法.9
3.2 利用API提取微博数据方法研究10
3.2.1 新浪微博平台简介10
3.2.2 OAouth2.0协议介绍及认证 .10
3.2.3 利用新浪微博开放API获取微博数据11
3.3 抓取结果及分析14
4 微博话题检测方法研究16
4.1 常用话题检测算法流程16
4.1.1 数据提取及前期处理.16
4.1.2 模型化方式表示文本.16
4.2 对微博文本的处理19
4.2.1 微博数据的预处理.19
4.2.2 提取文本中的热门话题.19
4.2.3 对文本内容的筛选.19
5 热门话题的情感分析21
5.1 情感信息分类21
5.1.1 主客观信息分类.21
5.1.2 情感极性信息.21
5.1.3 多类别情感信息.22
5.2 微博内容情感分析的理论基础22
5.2.1 倾向性分类的评估标准.22
5.2.2 特征选择方法.23
5.2.3 机器学习方法.23
5.3 本文的特征选取和文本的模型化表示26
5.3.1 本文的特征选取.26
5.3.2 文本的模型化表示.27
5.3.3 手动标注.27
5.4 实验及结果分析.27
结 论.29
致 谢.30
参考文献.31
1绪论
1.1研究背景
短短的几年,微博己经越来越深入人们的日常生活中。加之智能手机的普及,人们可以通过手机来更加便捷的实现电脑的多数作用,因而微博的使用更加便捷。我们使用的微博是基于在用户关系基础上的信息交流分享平台。用户发布的微博信息字数被控制在140字左右。推特作为新浪微博和其他微博的鼻祖,2006年在美国建立了全世界最早的微博应用模式。2009年8月,成长为现如今最大的微博平台的新浪微博建立。
ITU发布的《2013年信息社会分析》,报告显示2013年全球网民将达到27亿,移动互联网连接数将达到68亿[1]。其中中国的互联网用户数为6.18亿居世界之首,手机网民数5亿。作为现在最为活跃的互联网应用,推特在2014年2月活跃用户数达到2.41亿。eMarketer预测2014年全球移动手机用户将达到45.5亿。2014年,全球智能受众数量将超过2012年的10亿大关,达到17.5亿。eMarketer还预测,智能手机采用率到2017年将一直保持快速增长步调[2]。
作为国内最大的微博应用提供商,新浪微博截至2013年3月,用户规模达到5.365亿,日活跃用户数达到6000万,微博用户数与活跃用户数保持了稳定的增长由此可见以微博作为研究对象具有很现实的意义。并且在2014年4月17日,新浪微博IPO在美国纳斯达克上市。
智能手机的普及使人们可以随时随地手指轻轻一点就发布自己想发布的状态,在微博中人人都是新鲜事物的发布者,每个人都有自己的话语权,而如此大的用户所形成的这么大的数据量,微博作为一种社交媒体,里面包含的话题和情感倾向是很值得我们好好研究的。 微博热门话题提取和分析技术研究(2):http://www.youerw.com/jisuanji/lunwen_16050.html