1。2 文本情感分析研究现状
1。2。1相关情感术语介绍
1。2。2 研究现状分析
1。2。1 有关情感倾向分析的词典资源
1。3 系统开发工具简介
1。3。1 Qt与Qt Creator简介
Qt是一个跨平台应用程序和UI开发框架。也可以称作图形用户界面。Qt是由挪威 Trolltech公司于1996年上市;2008年被诺基亚公司收购,2012年Qt软件业务由芬兰IT业务供应商Digia收购。并不断地创新和发展,目前Digia公司已经将Qt发布到5。6。1版本。Qt只需要一次性开发应用程序,不需要再编写源代码,它是可以跨平台应用程序,深受用户和商业公司的喜爱。
Qt Creator是全新跨平台Qt IDE,可以单独使用,它与Qt库和开发工作组成的SDK,包括项目和生成管理工具,高级C++代码编辑器,图形化调试器,上下文相关的帮助系统,浏览工具和代码管理。它主要是让Qt新用户能够快速运行项目,还可提高Qt开发人员的工作效率。Qt Creator支持的系统有IOS、Linux、Android、 Windows CE/Mobile、Mac等。
1。3。2 Microsoft Visual Studio 2010简介
Visual Studio是由微软公司推出的目前最流行的Windows平台应用程序开发环境。Visual Studio 2010版本是在2010年上市,它的集成开发环境(IDE)的界面被重新设计和组织,变得更加简洁。其采用的是拖曳的操作方式和相应的代码便可以实现一个界面的生成, Microsoft Visual Studio 2010支持C++、C#和VB。并可以为开发者提供合适的工具和框架,能够支持软件开发中的最新架构和开发。
1。4 开发环境简介
(1)软件平台
开发工具:Microsoft Visual Studio 2010
开发语言:C++语言
开发环境:Qt4。8。2
1。5 论文的主要研究内容
新闻文本情感分析关键是如何判断新闻文本的情感倾向性,得到准确的分析结果,因此本论文的主要分为两大部分,分别为新闻的分词和朴素贝叶斯情感倾向的判断,以下则是主要部分内容叙述:
文本处理
中文分词是文本处理的第一步。中文的词语之间是没有空格隔开的,因此需要先进行分词才能进行下一步的处理;本文分词方法是基于词典的方法:采用台湾大学整理的一部情感词典,根据这部词典进行匹配。
(a)分词
本论文主要采用由网络开源词典作为分词的词典,采用的数据结构主要是Trie树中的前缀树,以实现AC自动机的形式,达到分词的目的,利用此种数据结构进行分词,算法方面主要采用最大向前匹配法,达到字符串匹配的要求,本论文采用的方法并不完全能达到分词的准确性,但是可以深刻的理解并学习分词的过程。
(b)情感词典的构建
为了达到情感倾向的判读,我们采用台湾大学情感词典作为本论文情感倾向的判断依据,是要分为两部分,积极的情感词典和消极的情感词典,同时我自己组织了部分以待判断的新闻文本中提取的积极和消极情感词语加入到情感词典中,以达到新闻情感倾向判断的准确性。
(2)情感倾向分析算法
朴素贝叶斯算法是一种基于概率的学习算法,其实现较简单,效率比较高,在对文本情感倾向分析方面表现的比较好。
(a)特征权值计算
特征权值的主要定义是某个单词在文本中出现的权重,本论文主要采用出现的词的次数作为分类的主要理论依据,也就是说,我们的待分析新闻文本在情感词典中出现的次数,在积极或者消极中占有的比率作为新闻文本倾向的主要判读依据。
(b)模型的训练