6。1 语料采集及预处理 15
6。2 评价指标 15
6。3 测试表现出的问题 17
参考文献 18
1 绪论
1。1 研究背景
21世纪,计算机正在一步步地融入人类的生活,从日常生活来看,facebook、微博等社交软件已经成为人类沟通有效的,不可或缺的一部分,Web2。0的出现使得人们可以轻松的将自己的生活、看法与态度分享到网络上来。越来越廉价的硬件价格,不断增长的计算速度,越来越迷你的设备体积,以及越来越优秀的软件使用体验,伴随的是更多的人参与到网络环境的构建上来,网络已经形成了一个庞大的,能体现社会信息方方面面的生态环境。而这样的生态环境是公开透明的,人们可以轻易获取其中的信息,其中也蕴含着巨大的商业、科学价值。而且近些年来,通过互联网的思维也使得商业与互联网联系更加紧密,类似阿里巴巴、京东、小米这样的互联网商业公司,让整个商业的运转从线下逐步转移到线上,人们开始依赖在互联网中购物,中国网络中心在2005年发布的报告统计了截止15年12月,中国已经有6。88亿网民,其中参与网购的用户就有5。13亿[1]。海量的购物者可以通过网络快速地发表自己对商品的看法,可以说在互联网时代,商品信息已经不存在秘密。在这个信息爆炸的信息时代,也不难解释为什么人们热衷于对数据的挖掘处理,对信息的提纯萃取。论文网
1。2 研究目的
文本数据中有很多人类感兴趣的特征,文本中所含的情感特征就是其中之一。一方面研究语言的情感倾向能够帮助企业将海量用户对产品的评价进行有效分类,企业常常希望得到客户对产品客观的看法,除去在公司的网站上设置评价,被动地等待反馈以外,还可以主动的从互联网爬取与自身相关的信息,通过情感分类分析大家在生活使用中对产品的看法,进一步分析出产品的优势和短板,找到产品的痛点,进而可以不断地改进自身的产品的服务;同时也能帮助了解舆论的走向,快速的了解人们对于各类事情的态度。从必要性角度上思考,面对膨胀的互联网数据,人工分析天文级的舆论数据完全不切合实际,因此需要优秀的情感分析算法作为工具。另一方面,情感分析不单单只有商业价值,近些年计算机从业者痴迷对人工智能的开发,语言类的人工智能对话,类似智能客服、小黄鸡等智能对话系统也对需要对用户的情感进行分析,以进行更加准确的对话,能否了解人类的情感,本身就是图灵测试的重要组成部分。文献综述
1。3 文章结构
第一章,介绍了软件的研究相关的背景和研究目的,简单介绍了当前互联网的发展现状,讨论了情感分析在商业上和人工智能领域的目的和意义,最后介绍了本文组织结构。
第二章,对情感分析理论的基本概念和基本流程进行了简单的介绍,对现在国内外文本情感分类的研究现状,主要是基于字典和基于机器学习的情感分类进行了介绍。
第三章,介绍了本软件的设计流程,提出了软件设计三个模块的基本需求,介绍了本软件主要使用到的开发技术。
第四章,介绍了软件第一个模块的基本理论和实现,包括中文文本分词,停用词和情感特征抽取,阐述了本软件实现第一个模块使用的方法。此外还说明了情感训练语料的相关内容。
第五章,是本文的主要内容,主要介绍了情感分类机器学习算法的相关概念,阐述了三个机器学习算法的主要思想,并说明了本软件如何实现这些算法,提供了代码/伪代码。