摘要伴随着互联网的飞速发展,用户在网上发表的评论等带有情感的文本数目也呈几何方式增长。如何分析这些大量的带有情感的文本并从中获取到具有实际价值的信息,成为一项很有意义的工作。本文以机器学习方法为主要研究手段,对文本情感分类方法进行了一些探究,具体如下:73277

(1)研究并评价了在词袋模型与词向量模型不同的文本表示下,多个分类算法(支持向量机,朴素贝叶斯,K最近邻)的效果,以及比较了特征维数,特征选择方法(互信息和信息增益法)对分类效果的影响。

(2)实现了在特征层次进行线性组合和在分类器层次进行组合的两种不同的特征组合方法,评价了其组合效果。

    实验的数据集采用互联网上采集到的评论信息,均有正确分类标注。实验中对特征选择方法,向量维数,分类器这三个方面进行了实验,实验结果表明需要根据具体的问题来在这三个方面做出合适的选择。同时也对组合使用词向量和词袋模型时的分类效果进行了实验,实验表明分类器层面进行融合与在特征层进行融合相比,具有更加好的分类效果。

毕业论文关键词  情感分类  词袋模型  词向量   特征组合

毕业设计说明书外文摘要

Title    Text sentiment classification algorithm based on feature combination                     

Abstract With the rapid development of the Internet, the user's opinion on the Internet is also growing in size。In these views, the huge social value and economic benefits are hidden。How to analyze a large number of the text with subjectivity has became a very meaningful work。In this paper, the machine learning method is the main research means。we use it to study the text sentiment classification algorithm in the following aspects:

(1)the research study and evaluate the different text representation of word bag model and word vector model in different classifier(Support vector machine,Naive Bayes,k-Nearest Neighbor)。we compare the different feature dimension and the feature selection method (mutual information and the information gain method)。

(2)Two different feature combination methods, which are linear combination at the feature level and combination of the classifier level, are realized。

   The experimental data,whitch has been marked,sets is commment collected  from the Internet。Experiments show that the fusion in classifier level is better than the fusion in feature level。

Keywords  Emotion classification  Word bag model  Word vector  Feature combination

目   次

1  绪论 1

1。1  研究背景 1

1。2  研究现状 2

1。3  研究内容与论文结构 2

2  文本情感分类基础知识 4

2。1  基于情感字典的情感分类方法 4

2。2  基于机器学习的情感分类方法 4

2。2。1  文本预处理 5

2。2。2  文本表示 5

2。2。3  特征选择 6

2。2。4  特征权重 8

2。2。5  分类方法 9

2。2。6  评测指标 11

3  基于特征组合的文本情感分类算法

上一篇:CTR基于协同深度学习的推荐系统设计
下一篇:Hadoop+FINDR高光谱图像混合像元分解的分布式并行优化方法

基于Apriori算法的电影推荐

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

python基于决策树算法的球赛预测

基于消费者个性特征的化...

基于网络的通用试题库系统的整体规划与设计

网络语言“XX体”研究

安康汉江网讯

麦秸秆还田和沼液灌溉对...

ASP.net+sqlserver企业设备管理系统设计与开发

我国风险投资的发展现状问题及对策分析

老年2型糖尿病患者运动疗...

新課改下小學语文洧效阅...

张洁小说《无字》中的女性意识

LiMn1-xFexPO4正极材料合成及充放电性能研究

互联网教育”变革路径研究进展【7972字】