摘要:随着Web2.0的发展,微博渐渐成为普通大众生活中必不可少的一部分,人们利用微博进行网上交流和网上评论。不断更新的微博具有巨大的信息量,而且微博中所表达的信息都是用户的真实情感和感受,微博信息中隐藏着巨大的价值。但是目前对英文微博情感分析较多,中文微博情感分析尚处于起步阶段。本文采用监督学习的方法进行微博情感分析研究,比较了七种分类器的实验效果。首先,利用结巴分词技术对微博信息进行分词预处理;然后,选取五类特征集:基于四个词典的特征集、基于N-POS的特征集、基于模式的特征集、基于特殊字符的特征集和基于句子长度的特征;最后使用七种分类器分别训练模型,做比较性实验。39911 毕业论文关键词:微博情感分析;情感分析; 多特征; 监督学习
Sentiment Analysis of Chinese Micro-blog Based on Supervised Learning
Abstract: With the development of the Web2.0, micro-blogs gradually become a common essential part of the public life. People communicate with each other and make comments on the Internet by micro-blogs. Micro-blogs are updating constantly everyday and have huge information. Apart form it, the reviews in the micro-blogs are true feelings of the users, thus there are huge hidden values in them. However, the existing research is more about foreign micro-blogs, but Chinese micro-blog sentiment analysis is still in its infancy. This paper uses the method based on supervised learning to analyze micro-blog sentiment, comparing the experimental results of seven kinds of classifiers. Firstly, it uses jieba technique to preprocess the micro-blog texts; then it selects five kinds of feature sets: sentiment lexicons based feature sets, Part of speech combination (N-POS) based feature sets, patterns based feature sets,special symbols based feature sets and sentence length based feature set; finally, it employees seven classifiers to train the model separately and compares their experimental results.
Key words: sentiment analysis of micro-blog; sentiment analysis; multi-feature; supervised learning
目 录
1 绪论 1
1.1 研究背景 1
1.2 研究的目的与意义 1
1.3 国内外研究现状 2
1.3.1 文本情感分析研究现状 2
1.3.2 微博情感分析研究现状 3
1.4 论文的主要研究内容 4
1.5 论文的组织结构 5
2 相关介绍与理论概述 6
2.1微博相关概述 6
2.1.1微博的定义与发展 6
2.1.2 中文微博中的符号 6
2.1.3中文微博研究中的困难 6
2.2文本预处理技术 7
2.3 特征选择 7
2.3.1常用的特征选择算法 7
2.3.2特征选择方法优缺点比较 9
2.3.3微博的特征选择方法 9
2.4本章小结 9
3 基于监督学习的微博情感分析 10
3.1 监督学习相关介绍 10
3.2 基于监督学习的整体框架 10
3.2.1 情感分类 10
3.2.2 监督学习过程 10
3.3 特征产生 11
3.3.1 词典特征 11
3.3.2 N-POS特征 13
3.3.3 词性与中文组合特征 13
3.3.4 特殊字符特征 14
3.3.5 句子长度特征 14
3.4 分类器 15
3.4.1 支持向量机 15
3.4.2 朴素贝叶斯 15
3.4.3 K近邻 16
3.4.4 决策树 16