基于词典与机器学习的中文微博情感分析_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

基于词典与机器学习的中文微博情感分析

摘要:在互联网技术高速发展的今天,微博作为具有代表性的新兴网络应用,由于其用户众多,因此在海量的微博数据中抽取有效的信息日渐成为研究的热点。本论文就如何从微博文本中获取用户的情感倾向进行了研究。详细描述了国内外学者对文本情感分析的研究现状以及国内外微博情感分析研究的最新成果,并对中文微博情感分析的相关技术和基本理论进行了说明。比较在不同机器学习算法与特征组合下情感分析分类的性能优劣,设计基于情感词典的情感倾向加权计算算法,实现微博情感分析的展示系统。最后对本文进行了讨论以及进一步的展望。25177
毕业论文关键词:微博;情感分析;分类;情感倾向加权计算
Chinese Weibo Sentiment Analysis Based on Dictionary and  Machine Learning
Abstract:With the rapid development of Internet today, Weibo has become a typical emerging network application. Because of its large number of users, how to utilize the huge data resource of Weibo quickly and effectively becomes a research focus in a variety of fields. This article conducted research on how to obtain users’ emotional orientation from their text on Weibo. Then this article gave a detailed description about the present development of the research on text sentiment analysis and the latest research achievement of Weibo sentiment analysis both at home and abroad, and explained the relative technology and fundamental theory of sentiment analysis of Weibo text in Chinese. After the comparison on the performance of sentiment analysis with different machine learning algorithms and feature combinations, this article designed an emotional orientation weighted algorithm based on emotional dictionary, in order to realize the display system of Weibo sentiment analysis. Finally, the article made further discussions and gave prospects for future development.
Key words: weibo;sentiment analysis;classification; emotional orientation weighted algorithm
目  录
摘要    1
关键词    1
ABSTRACT.    1
KEY WORDS    1
1.绪论    1
1.1  问题的提出    1
1.2 国内外研究状况    2
1.3  研究的目的和内容    2
2  情感分析相关理论与技术    4
2.1 微博的简介    4
2.1.1 微博文本的简介    4
2.2 相关任务的定义    4
2.2.1 微博主客观的定义    4
2.2.2 微博极性判别的定义    5
2.3 情感词典的构建    5
2.3.1 情感极性词典    6
2.3.2 副词词典    6
2.3.3 否定词典    6
2.3.4 特殊词典    7
2.4 微博文本预处理    7
2.4.1 中文分词    7
2.4.2 去停用词    8
2.5 特征选择    8
2.5.1 文档频率(DF)    8
2.5.2 互信息(MI)    8
2.5.3 信息增益(IG)    9
2.5.4 词频(WF)    9
2.5.5 卡方统计量(CHI)    9
2.6 本章小结    9
3  基于机器学习的微博主客观分类与极性判别    9
3.1 分类器的基本原理    9
3.1.1 朴素贝叶斯分类器    10
3.1.2 支持向量机分类器    10
3.1.3 逻辑斯蒂回归分类器    11
3.2 分类器选取    12
3.2.1 五文非文本特征下的实验    13
3.2.2 八文非文本特征下的实验    14 (责任编辑:qin)