情感分析有多个子任务,任务一:观点句识别,即判断句是否是观点句,任务二:情感极性判断,即确定为观点句的情况下,判断该句子的情感极性,正向情感和负向情感。 Web2.0的快速发展激发了大量社交网络平台的诞生,由网民用户发表的情感信息和交互信息成指数级增长。这些信息体现了用户的心理情感和观点倾向,比如高兴、快乐、思乡、仇恨、喜欢、厌恶、顺从、忤逆等等。近几年,随着微博的迅速发展,文本情感分析渐渐成为NLP领域不可缺少的一个分支,文本情感分析的研究更加丰富和发展了自然语言处理。文本情感分析的热潮不仅在国内如此,国际上也出现了很多相关的高质量的文章供我们参考研究。下面首先介绍文本情感分析所使用的相关技术和方法,主要为情感词典和机器学习的方法,然后介绍目前中文微博领域的发展情况。39911
1 文本情感分析研究现状
文本信息根据大小按从大到小分可以分为:篇章、句子和短语。因为微博信息是一条条句子信息,所以本文的研究对象是句子级别的文本信息。近几年,应用在情感分析领域分类效果比较好的有两种方法:情感词典和机器学习。情感词典主要是通过构建词典来进行字符串匹配来产生相应的特征,机器学习主要是通过特征提取和训练模型来进行情感分类的预测。论文网
(1)基于情感词典的文本信息分类
基于情感词典的方法是:用已有的人工标注的情感词典去查找一个文本中包含正向情感词汇和负向情感个数,文本的情感极性由正向情感词汇和负向情感词汇数量的差值决定。以上是基于情感词典法最基本的概念。
外文文本情感分析早在上世纪90年代就开始了,比如较早开始研究文本情感分析的外国研究者Riloff和Shepherd[1]通过对语料集的研究,手工建立了词典,在此基础上做了相关情感分析的研究。Hatzivassiloglou和McKeown[2]通过对大数据量的预料集的研究,进一步发现了副词和连词对情感的影响,例如:however,but,nevertheless等连词对情感倾向的影响,这些连词之后的情感倾向才是重点,副词very,extremely等对观点句识别具有极大的影响,出现这些副词,往往这句话是观点句,开始尝试对英文的词语作情感倾向性判断。之后,越来越多的人考虑了情感词与特征词的相互关系,在此基础上做了相关研究。Turney等[3]人工扩充了基础的褒义词和贬义词词典,为了使字符串匹配的词库更加丰富,这样也能够提高情感分类效果,除此这外,极性语义算法也被用到文本情感分析中。Tsou等[4]主要研究普通民众对政治官员的看法,在此研究中,他们计算了每个词语更有可能表达什么情感,统计了更有倾向表达情感元素的强度和密度来进行情感分析。最近几年Narayanan等[5]想到不同的情感倾向可能与不同的句式表达有关,于是他们开始以条件句为例,对条件句展开研究,而在条件句中最多的变化或是特征就是时态的变化,于是他们研究不同时态对情感判断的影响。Miao等[6]等在有关商品的反馈评论上进行研究,在特征层面考虑,首次在此领域应用中提出四元组概念,从而实现对特征的重要性级别分析。
在中文文本情感分析方面徐琳宏、林鸿飞[7]从词汇层面考虑,手动构建了情感词汇库,从句子层面考虑,提出有关句子的9种语义特征,对情感分析研究做出了初步尝试。李钝、曹付元等[8]从语言学的层面考虑,通过研究词语之间搭配,并且提出搭配词语之间的关键词,而这些关键词更能表达观点情感倾向。比如:不是...而是...,虽然...但是...,这两个搭配关键词是“而是”和“但是”,这两个词后面的观点才是本句的观点倾向。近几年王素格等[9]研究汽车语料的评论,根据计算特征倾向的可能性大小,赋予特征不同的权重,从而进行情感分析研究,最后取得较好的实验效果。赵妍妍等[10]研究电子产品领域中用户对电子产品的相关评论,提出一种句法路径搜索算法,计算句法路径距离来提高情感判断倾向的准确率。取得了较好的实验效果。 文本情感分析研究现状:http://www.youerw.com/yanjiu/lunwen_40624.html