从目前国内外收集到已公布的期刊文献来看,对于情感分类的方法大体上分为两类:
(1)使用情感词典及词语的转化进行分类
从20世纪90年代开始就不断的有人关注文本中情感的挖掘。早期,Rloff和Shepheard使用大量语料数据构建了语义词典[4]。之后Hatzibassiloglau和McKeoawn对英文的词语情感倾向性提出了一种方法,考虑到了形容词的情感倾向受到句子结构,尤其是连词的影响[5]。2003年Turney等提出了十分有效的点互信息(Pointwise Mutual Information)方法对基准的褒贬促会进行扩充,通过极性语义算法分析情感倾向,在处理一般领域方向的语料时正确率达到了74%[6]。Tsou等使用了更加精确的数学方法,将词语极性元素分布和语义的强度对报刊的语义倾向进行计算,得到了大众对政治人物的评论与看法[7]。近几年Miao等为了更好的解决特征的倾向,提出了一种四元组抽取概念,对特征倾向进行了分级[8]。Narayanon等发现不同语句结构对表达情感有着不同程度的影响,对条件语句进行分析,对不同时态信息对各类预料标注种类,结合各种特征值,提出对句子结构进行划分,收到了很好的效果[9]。82919
总的来说,通过情感词典对文本的情感进行挖掘,优点是在词语级的粒度细,分析准确率较高,但是由于过分依赖词语,一方面受到自然语言的抽取技术以及自然语言基本的处理技术显示,另一方面很容易忽略文本的特殊语法结构使,得该方法在不同领域语言环境下需要人工的进行特殊处理,自身的可扩展性也受到了限制。在未来的研究中基于词典的情感分析还有不少的难点需要攻克,目前该方法已经有不错的正确率,但还有很大的发展空间。论文网
(2) 通过机器学习手段进行情感进行分类
常见的分类方法都可以作为情感分类的方法,比较著名的机器学习算法有基于概率的朴素贝叶斯(NB)、基于信息墒理论的最大熵、基于统计学的K-最临近分类(KNN)和支持向量机(SVM)等。
国外进已经有相当多的论文发表,比如Lillian Lee等人分别采用了朴素贝叶斯等算法对网络视频的影评进行情感分类,把网络上电影评论分为褒义情感与贬义情感,同时使用手工分类进行验证,发现SVM方法表现最佳,正确率可以达到80%[10]。Whilelaw同样对影评进行分类,但是提取了评价信息中形容词词组,结合了情感词典的内容,使用SVM方法正确率突破了90%[11]。Moens用对不同的语言进行测试,荷法语语的正确率达到68%,荷兰语有70%,英语有83%,体现了机器学习方法即使在不同的语言环境都能发挥不错效果,相比词典方法有着更加优秀的可移植性[12]。
中国方面夏火松等人通过TF-IDF权重计算,使用SVM分类器对旅行网站的客户反馈进行情感分类,研究了中文停用词对分类的影响[13]。张珊等发现利用微博中的表情图片,使用表情与情感词构建微博的语料库,可以更准确的挖掘用户情感,通过贝叶斯分类器进行分类,又通过信息熵对语料库进行优化,准确率可以达到85%以上[14]。
机器学习的情感分类主要优势是能正确提取文本的特征信息,对文本特征提取处理得当的话会使准确率很高,移植性也很好。但是非常依赖训练集,训练集不仅需要人工或者其他手段提取,训练周期往往也很长,目前发展与词典方法相差不大,但是随着语料集的收集方法不断优化,自然语言处理越来越成熟,机器学习方法有着比字典方法更好的发展前景。
情感分析算法国内外研究现状:http://www.youerw.com/yanjiu/lunwen_97487.html