总的来说,以情感词典为基础的文本情感分析方法,更加注重在句子级和词语级的研究,因此对文本信息分析精度更细,然而句子和短语级的分析可能会忽略文本信息中隐藏的情感信息,比如上下文、词性组合等等。
(2)基于机器学习的文本信息分类
这类方法的机器学习模型通常有:SVM, KNN, Decision Tree和Naïve Bayes等分类算法。在国外,Pang等[11,12]将机器学习算法应用在电影的评论上,将电影评论进行情感极性分类为:正向情感和负向情感,他分别采用了Naïve Bayes、SVM、最大熵三种分类器做实验,发现在这三种分类器中,SVM这种分类器的分类效果相对更好。Moens[13]把机器学习方法应用到对不同语言作情感分类上,在分别对英语、法语、荷兰语的实验中,发现机器学习的方法不受语言的限制,尤其在外语中,能够在这三种语言的情感分析中取得不错的分类效果。
在中文文本情感分析中,乔向杰等[14]采用不精确的推理方法获得学生对学习事件的期望,在这基础上,使用分类器中的基于概率的模型贝叶斯网络对其建模。唐慧丰等[15]在单词词性的层面考虑,通过分析不同词性,例如统计不同词性的组合,如adv+v更可能表达某种情感等方法来选择特征进行模型训练,分别用贝叶斯分类、K近邻、中心向量法和支持向量机做不同的文本分类对比实验,实验结果表明:采用N-Gram、信息增益特征选择方法和SVM分类模型,可以获得很好的文本情感分类效果。
基于机器学习的文本情感分析,最重要的如何提取有助于分类的特征,特征提取的好坏直接影响到模型建立的好坏。缺点是过于依赖语料集,即使相同的模型,对不同的测试集的测试效果也有可能大相径庭。优点是特征获取客观,分类效果好。随着训练语料集的迅速扩充,机器学习方法有更好的发展空间。
2 微博情感分析研究现状
微博作为互联网上新兴的应用之一,与国外微博Twitter相比,对中文微博情感的分析相对较少,对这方面有特别大贡献的杰出文章也较少。Jiang[16]通过相关特征情感词典词汇的扩充来提高分类的精确性,从而提高实验的分类效果。Go和Bhayani[17]实验对象为Twitter中的信息,不同于以往的只对微博信息做情感分析,他们提出把含有表情图标的信息也考虑在内纳入训练集,利用分类器朴素贝叶斯,SVM和最大熵建模进行实验。
中文微博近两年呈现出高速的发展趋势,还处于起步阶段,这方面的文章较少,谢丽星[18]选择研究对象为新浪微博信息,选择了4种特征,利用分类器中的SVM分类算法对其进行情感分析研究,最后取得了较高的实验效果。陈晓东[19]通过对当前的情感词汇资源总结和整理,自己构建了一个面向中文微博的情感词典。周学广[20]在任务观点句识别上,采用的方法是构建情感词库,但是他对情感词库进行分类,有极性词库,例如:特别、很 、非常等,否定词库,例如:不、不可能、不会等,这些对情感的判断有极大地作用。在任务二情感极性判断上,他使用线性相加法,利用到前面的正向情感词库、负向情感词库以及转折词词库,然后进行字符匹配,每遇到正向情感词+1,每遇到负向情感词-1,累计加减,遇到转折词库,置0,最后统计总数,大于0的判断为POS,小于0判断为NEG,等于0为NEUTRAL。许歆艺等人[20]使用2-POS模型,即连续两个词性的组合模型,首先用分词技术例如结巴分词,把微博句子分为连续n个词性的顺序组合,用这些项作为文本的一个特征。发现当N取2时,此时词性组合出现的概率较大,此种方法对观点句识别取得了一定的效果。 文本情感分析研究现状(2):http://www.youerw.com/yanjiu/lunwen_40624.html