然而商品评论大多为自然语言构成,商品评论信息飞速增长,评论内容的千差万别和质量的参差不齐。海量而繁杂的数据仅靠人工阅读既费时费力效率也不高,同时容易产生错误【5】。也很难让用户和企业全面地了解评论的概况,不能有效取得产品的关键特征信息。对评论进行准确快速处理的迫切需要,催生了对商品特征进行评论挖掘和分析的研究。即情感分析技术,分析文本中所表达的语义倾向性,挖掘顾客的主观情感,从而将该文本判定为正面或负面评论。它可以分为文本层次的情感分析、句子层次的情感分析、还有基于特征的情感分析【6】。它分析的颗粒是越来越小的,有判断文本的感情倾向到句子的感情倾向,再具体到句子中的对象【7】。
1.2  研究的目的和意义
    产品评论的情感分析技术的研究目的即要从大量关于产品或服务的网站用户评论中挖掘出对于用户有价值的信息。同时,简单高效的自动化提取技术能极大的提高整个评论挖掘的效率,从而使得海量的评论信息能发挥其应有的作用。   
    对产品评论抓取是十分有价值的。 产品评论的数据充足,角度多样,还可以免费浏览,降低了获取用户反馈所需要的成本。同时产品评论也是双向性和与时俱进的。用户能及时了解产品的信息变更,及时改变购买决策,商家也可以及时更改产品设计。
1.3  国内外研究现状
1.3.1  国外研究现状
1.3.2  国内研究现状
1.4  本文研究内容
   本文通过早期资料搜集和归纳整理,了解基于字典的无监督方法的原理和主要研究方法,并尝试使用这些方法对评论文本进行处理,分析背后情感极性。
本文的组织结构如下:
第一章:介绍本论文所属课题在国内外的研究方法和背景,以及研究的意义。
第二章:介绍论文所采用的方法
第三章:系统阐述具体实施细节
第四章:实验评估和分析
2  主要研究方法
    基于字典的无监督情感分析方法,主要是根据被分析的文本的句子中的单词来进行分析的方法。通过对文本中单词得分和各种规则的计算总和,得到文本的总得分,若为正,则为正面评价,若为负,则为负面评价。
2.1  字典设置
    在基于字典的无监督方法中,字典是由手工创建,单词绝大部分抽取于商品评论语料库,同时结合了一些其他的字典。使单词能具有针对性和一定的覆盖度。通过一个以英语为母语的人对单词进行打分,然后再由3个监督员进行检查和修正【10】。单词不考虑其时态,仅使用原型,每个单词对应一个语义值,该值的范围为 +5到-5(整数)。当语义值为正时代表为积极的极性,当语义值为负时,则表示为消极的极性。积极和消极在单词先前极性的基础上决定了这个单词在大多数情况下的意义。
     本文所用字典分为单字字典和多字字典。分为形容词,名词,动词,副词词典,同时也包含加强词字典。增强词字典包括2,252个形容词词目,1,142个名词,903个动词和745个副词。它的排列方式为一个词对应一个增强或减弱百分比。
表1  名词和动词字典的词语示例
Word        SO Value
Monstrosity    -5
hate (noun and verb)    -4
disgust    -3
sham    -3
fabricate    -2
delay (noun and verb)    -1
determination    1
上一篇:有向图的特定模式搜索和优化
下一篇:ASP.net+sqlserver单位办公用品管理系统设计+源代码

基于Apriori算法的电影推荐

PHP+IOS的会议管理系统的设计+ER图

数据挖掘在电子商务中的应用

数据挖掘的主题标绘数据获取技术与实现

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

志愿者活动的调查问卷表

承德市事业单位档案管理...

神经外科重症监护病房患...

国内外图像分割技术研究现状

C#学校科研管理系统的设计

10万元能开儿童乐园吗,我...

公寓空调设计任务书

中国学术生态细节考察《...

AT89C52单片机的超声波测距...

医院财务风险因素分析及管理措施【2367字】