3.3 主客观识别及特征选取 15
3.3.1 文本特征对分类的影响 15
3.3.2 文本特征的实验结果 16
3.4 极性判别及特征选取 16
3.4.1 文本特征的实验结果 16
3.5 本章小结 17
4 基于情感词典的微博主客观分析与极性判别 18
4.1 情感倾向分析 18
4.1.1 情感倾向度 18
4.1.2 情感词的获取 18
4.1.3 程度副词的分析 18
4.1.4 否定词的分析 18
4.1.5 感叹句的分析 19
4.2 情感倾向加权计算 19
4.3 实验设计与结果分析 20
4.4 本章小结 20
5 微博情感分析与展示系统设计与实现 21
5.1 系统介绍 21
5.2 微博数据获取子系统 21
5.3 微博情感分析子系统 22
5.3.1 微博信息预处理模块 22
5.3.2 特征提取模块 23
5.3.3 微博主客观分类模块 23
5.3.4 微博极性判别模块 23
5.4 结果数据存储子模块 23
5.5 结果可视化子系统 24
5.6 系统展示 24
5.7 本章小结 26
6 讨论 27
致谢 27
参考文献: 28
基于词典与机器学习的中文微博情感分析
1.绪论
1.1 问题的提出
自从微博进入人们的生活之后,使人们可以及时的更新动态,微博为人们提供了一个随时随地表达情绪的社交平台。与此同时当用户面对海量的微博数据的时候,往往不知道如何利用这些庞大的数据。在这个数据看似极其不规则的社交平台上,往往可以挖掘出许多有价值的信息。当用户更新一条状态的时候,往往会产生互动,而这些互动是跟用户的情感倾向相关联的,就可以对其做情感分析[1]。
因此在海量的微博数据中抽取有效的信息日渐成为研究的热点。微博用户的情感分析成为国内学者纷纷研究的焦点。在用户发布的微博中利用相应的算法去分析处理和统计,将结果服务于现实生活是很有经济价值的。切实有效的中文微博情感分析是具有符合于社会发展需要的课题研究。
1.2 国内外研究状况
1.3 研究的目的和内容
本文的题目是基于词典与机器学习的中文微博情感分析,目的是使用数据分析的方法,从数学的角度去研究在社交网络上人们表达情绪的倾向,设计并实施了一整套从数据抓取到分析的流程。主要可以分为如下几点:爬虫获取微博文本数据、微博情感词典的构建、微博文本数据预处理、微博文本数据的相似度分析、词典分析和机器学习的方法对微博文本进行情感分析以及数据可视化展示。
研究内容如下:
1)微博文本数据获取
自编写python的爬虫程序,在微博平台上爬取用户的相关微博。获取的形式可以分为两种:用于个人情感分析的数据,将该用户的所有微博进行爬取;用于学校情感分析的数据,爬取南京农业大学、南京航空航天大学、南京理工大学、南京师范大学、南京大学、东南大学优尔个学校每个学校540个用户20条微博,约为50000条。
2)微博情感词典的构建
引入情感极性词典、程度副词词典、否定词典、表情词典等对情感词典有一个相对较完善的构建。 基于词典与机器学习的中文微博情感分析(2):http://www.youerw.com/jisuanji/lunwen_18829.html