3。1 基于词袋模型与词向量模型的文本表示方法 13
3。1。1 基于词袋模型的文本表示方法 13
3。1。2 基于词向量模型的文本表示方法 13
3。2 特征选择与权重赋予 14
3。2。1 互信息法 14
3。2。2 信息增益法 15
3。3 特征组合 15
3。4 分类器 15
3。5 算法流程 16
4 实验结果与分析 18
4。1 实验一:选用特征选择方法的不同对分类效果的影响 18
4。2 实验二:选用分类器的不同对分类效果的影响 19
4。3 实验三:选择特征维数的不同对分类效果的影响 20
4。4 实验四:基于特征组合的文本情感分类算法评测 22
结 论 23
致 谢 24
参 考 文 献 25
1 绪论
当前互联网巨大的发展普及势头,使得用户在网上发表的带有情感的文本规模也呈几何方式增长。如何分析这些大量的带有情感的文本,找寻其中具有价值的信息,成为一项很有意义的工作。在本章节中,先介绍了在文本的情感分类方面相关的背景以及研究现状,然后叙述了本论文的研究内容和论文的结构。论文网
1。1 研究背景
这些年以来,随着互联网平台越来越普及化,人民生活水平的提高,越来越多的人加入到互联网这个平台中。他们不仅从互联网中获取自己所需要的信息,同时也在其中创造出具有主观色彩的信息。这些具有主观色彩的信息大量的存在于论坛,新闻,电商中,包含着互联网用户对某一事件,某一产品的评论与情感表达,具有极高的社会价值与经济效益。这使得当前研究的一个焦点是如何有效处理这些数量庞大而又有着巨大价值的内容。
人们已经意识到互联网中大量信息的价值,在给予关注的同时也提出了一些处理信息的方法。例如,人们使用信息检索的方式来处理这些海量的信息;又如通过文本中的关键字来找出相关信息;又或者是按主题进行整理分类,如军事,经济,政治文化等主题。但是这些方法并不能有效的处理包含于信息中的主观内容,而这些主观内容往往有有着很高的价值。例如,生产厂家需要依靠用户的意见来对自己的产品进行改进,而这些意见往往存在于主观性的内容当中,传统的依靠问卷调查,人工回访的方式耗时耗力,在当前激烈的市场竞争下并不是一个有效的手段;又如人们在网络上进行购物时,往往会参考已经购买该产品的用户的意见,但由于商品评论的海量信息,用户往往不能快速的掌握有效的信息;又如政府需要了解民众对于某一热点事件的舆论状况,帮助其制定政策,改善服务,但在海量信息的环境下,依靠人力很难来对评论进行跟踪与处理,过程也非常的缓慢,但是如果利用计算机来自动进行分析,就可以保证信息的时效性[ ]。一般的文本分类任务与文本情感分类之间存在差异,这种差异主要体现在对于文本的情感倾向的关注程度。一个个体对于某件事或者某件物品的看法,喜好就是情感倾向,而在情感倾向分类中,最终要得到其是否支持某一的看法的信息,而非简单的客观内容,一般为将这些内容分为褒贬两类[ ]。由此可见,情感分类技术对于海量信息的处理可以让人们更好的去利用互联网来改变生活。这种对于海量信息处理的需求,使得自然语言处理相关研究的热点方向,逐渐转移到了观点的挖掘与情感分类领域。