1。2。2 MySQL简介
MySQL使用的SQL语言是访问数据库的最常用标准化语言,是当前最流行的关系型数据库管理系统之一。由于MySQL的一些特点:体积小,速度快,简单易学,功能强,成本低,特别是开放源码这一系列的特点被个人和中小型企业所的使用。
1。2。3 MyEclipse简介来自优I尔Y论S文C网WWw.YoueRw.com 加QQ7520~18766
Eclipse是一个IDE(Integrated Developing Environment)集成开发环境,这个IDE是允许安装第三方插件来扩展和增强自身功能的,而MyEclipse是在Eclipse基础上加上自己的插件开发而成的功能强大的企业级集成开发环境,不需要像在Eclipse上安装第三方插件来扩展功能,MyEclipse本身集成了很多开发者常用的插件,MyEclipse源码开放,还具备完备的编码、调试、测试、发布等强大功能,而且智能、快捷、简单,所以常被用于企业级开发、Web开发、云开发中,支持各种开源产品,应用它使得我们在数据库和JAVAEE的开发、发布以及应用程序服务器的整合方面提高工作效率。
1。3 开发环境简介
(1) 硬件平台:
处理器类型:Intel (R) Core (TM) i5 - 2070M CPU
处理器速度:2。40 GHz
内存:8。00 GB
(2) 软件平台:
操作系统:Windows 7
数据库:MySQL
开发工具:MyEclipse
开发语言:Java 语言
运行平台:Windows 7。
2 系统分析
2。1系统原理分析
2。1。1情感分析功能原理分析:
情感分析又称情感分类,是通过分析商品、服务、任务等研究对象的相关文本内容,发现评论者对该研究对象的褒义态度和意见[3]。
情感分析是分析、处理、归纳、推理带有情感色彩文本[4],对文本情感分析技术主要分为两大类[5]。论文网
第一类是使用机器学习判断文本情感分类[6]。该方法首先要选取特征,比如文本“画很美丽!”,该文本属于正类,文本中的“画”,“很”,“美丽”,“!”这4个组成部分影响到结果,所以如果接下来的测试用例中出现这四个部分的其中之一或四个部分的组合,文本都会偏正类。这四个部分和部分组合可以选作为特征。接着通过统计等方法从丰富的特征集中找到具有代表性的特征。把这些特征分为数量多的训练特征和数量少的测试特征,利用训练集构造好的分类器,在使用测试特征来验证分类器的好坏,若结果不够精确,则重新选择分类算法,重复步骤选出最好的分类算法。再使用分类算法得出分类结果。你该方法相比第二类方法精确,但是容易产生过适应现象。
第二类是基于词库的方法来进行情感分析[7],该方法需先建立起情感词库,将文本拆分成词或字,再运用词库计算每个词或字的值,使用与权重相乘求平均值等各种算法计算出最终的文本分值从而判断整个文本的情感偏向。本文是对日常聊天使用的实用性系统,无需过度精确,使用机器学习方法系统运行速度慢,且对用户电脑配置有一定要求,所以本文采用第二种基于词典的方法进行文本的情感分类。
随着情感分析技术的不断研究与发展,已广泛应用于众多领域,例如:黄发良等人提出的微博情感的SRTSM模型[8],刘红玉设计的基于情感分析的网络舆情系统[9]以及吴江设计的Web金融文本情感分析[10]都对情感分析的研究有很大的提升,不断提高了情感分析算法的性能,也更针对性适合了其发展研究领域。
本系统中是调用腾讯提供的词库对文本进行情感分析处理的[11],因为目前公开开源的情感词库并没有很多,国外很多的英文词库并不能与中文进行转换,所以本系统选择腾讯词库用来进行情感分析。