文本情感分类是自然语言处理领域中非常热门的一个研究课题,许许多多的研究者不断在该领域进行相关理论的探索与研究。该问题按照分类的关注点的不同,分为短语级别,句子级别和篇章级别,由于本文关注的是篇章级别的分类,下面对篇章级别的研究现状进行一个简介。73277
目前,在篇章级别的研究方法大体上能够总结为三类,有监督学习,半监督学习和无监督学习[ ]。
有监督的机器学习方法将大量的已标注好的文本用于训练,把问题转化为一个包含大量已有标签的文本的统计分类问题。Pang[ ]首次将有监督的学习方法引入到情感分类当中,并在研究中对多种分类算法,特征以及特征选择方法在有监督学习的前提下对这些方法的效果进行了实验。在此之后大量的研究者们着重于改善监督学习分类的效果。经过不断的研究改善,目前基于监督学习的方法已经取得了不错的效果,这也是本文的主要方法。论文网
半监督学习方法是通过在少量的标记样本集上进行训练,再在大量的未标注样本集中进行学习的方法构造分类模型。这种方法最近才受到较大的关注,Dasgupta and Ng[ ]在半监督的学习方法中融入了多种机器学习方法(例如:集成学习等)。
无监督学习方法仅通过没有任何标记的样本集来进行情感分类学习,以此来构建分类器
参考文献
[ ]姚天昉,程希文,徐飞玉,汉思•乌思克尔特,王睿。文本意见挖掘综述[J]。中文信息学报,2008,22(3):71−80。
[ ]罗芳。 意见挖掘中若干关键问题研究[D]。 武汉:武汉理工大学, 2011。[3]
[ ]宗成庆。 统计自然语言处理[M]。 北京:清华大学出版社, 2013。 416-431
[ ] Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan。 2002。 Thumbs up? Sentiment Classification using Machine Learning Techniques。 EMNLP-2002, 79—86。
[ ] Dasgupta S, Ng V。 Mine the easy, classify the hard: a semi-supervised approach to automatic sentiment classification[C]// Joint Conference of the, Meeting of the ACL and the, International Joint Conference on Natural Language Processing of the Afnlp: Volume。 Association for Computational Linguistics, 2009:701-709。
[ ] Yao TF, Cheng XW, Xu FY, Uszkoreit H, Wang R。 A survey of opinion mining for texts。 Journal of Chinese Information Processing, 2008,22(3):71−80 (in Chinese with English abstract)。
[ ]黄萱菁,张奇,吴苑斌。文本情感倾向分析[J]。中文信息学报,2011,25:3-9。
[ ]赵妍妍, 秦兵, 刘挺。 文本情感分析[J]。 软件学报, 2010, 21(8): 1834-1848
[ ] Bing Liu。 web数据挖掘[M]。 北京:清华大学出版社, 2009。 49-94
[ ]唐慧丰, 谭松波, 程学旗。 基于监督学习的中文情感分类技术比较研究[J]。 中文信息学报, 2008, 21(6): 88-94
[ ]代六玲,黄河燕,陈肇雄。中文文本分类中特征抽取方法的比较研究[J]。中文信息学报,2004, 18( 1):26-32。
[ ]孙启干。 面向Web文本检索的归一化向量分类算法[D]。 重庆大学, 2012。
[ ]李航。 统计学习方法[M]。 北京:清华大学出版社, 2012。 95-130
[ ]李太白。 短文本分类中特征选择算法的研究[D]。 重庆师范大学, 2013。
[ ]刘志红。 多语种多类别体系下文本自动分类系统的研究与实现[D]。 东北大学, 2010。
[ ]周志华。 机器学习[M]。 北京:清华大学出版社, 2016。 150-153,
[ ]王国才。朴素贝叶斯分类器的研究与应用[D]。重庆:重庆交通大学,2010,14-19。
[ ]胡学钢,董学春,谢飞。基于词向量空间模型的中文文本分类方法[J]。合肥工业大学学报(自然科学版),2007,30:2-3。