inspire    2
inspiration    2
endear    3
relish (verb)    4
masterpiece    5
表2  名词字典的词语示例
Word        SO Value
Excruciatingly    -5
Inexcusably    -3
Foolishly    -2
Satisfactorily    1
Purposefully    2
Hilariously    4
determination    1
inspire    2
inspiration    2
endear    3
relish (verb)    4
masterpiece    5
    尽管大部分的条目是单个词,但也存在多字条目,包含动词,形容词和加强词,在识别时采用一个类似正则表达式中写入多字条目。动词多字表达字典有152条(主要是动词短语,例如fall apart),增强字典多字表达词典有35个条(例如,a little bit)。多字表达优先于单字表达;例如,funny本身是正值(+2),但是如果短语act funny出现,它则被赋予负值(-1)。
表3  副词词典的示例
Word        SO Value
excruciatingly    -5
Inexcusably    -3
Foolishly    -2
Satisfactorily    1
Purposefully    2
Hilariously    4
    在语料库方面,要构建系统并运行我的实验,我使用Taboada and Grieve (2004) and Taboada, Anthony, and Voll (2006)描述的语料库,它有一个从8个不同种类(包括书,车,电脑,厨具,酒店,电影,音乐和电话)挖掘出的Epinions评论的400条文本的集合。我们命名它为“Epinions1”。在每个集合中,这些评论被分为25条正,25条负的评价,每个种类有50条,语料库中有总计400条的评论。我们通过评论作者提供的“推荐”或“不推荐”特性来决定一条评论的正负极性。
2.2  强化
    强化包括两个方面:增强作用和减弱作用。增强作用的比重并不是固定的,例如,例如,extraordinarily是比rather更强烈的增强器,所以为每个增加单词或减弱单词分配了不同的百分比。
    增强或减弱效果一方面要依靠增强条目或减弱条目。增强作用例如very,减弱作用例如barely,如果用good这个形容词,比如它本身的语义值为3,那么very good相当于给good一个增强的效果,very的加强比为0.2。则very good的得分则为 good的语义值 *(very的加强比+1)。而对于barely good, barely的减弱比为-1.5,则barely good的得分则为good的语义值 *(barely的减弱比+1)。
    同时,增强和减弱作用也依靠被增强或减弱的条目,例如将truly  fantastic和truly okay进行对比,同样的加强条目,但被加强条目的分值是不一样的。如,truly的加强比为0.3,在truly fantastic上, fantastic的得分值为5, 则它的得分就是 5*(1+0.3)=6.5,在truly okay上,okay的得分为1,则它的得分为1*(1+0.3)=1.3。故在本文方法中,每个加强词与它有一个相关的百分比;增强条目是积极的(百分比>0),然后减弱条目是消极的(百分比<0)。
表4  加强词词典的示例
Intensifier        Modifier (%)
slightly    −50
somewhat    −30
pretty    −10
really    +15
very    +25
extraordinarily    +50
    在此,再举一例详细说明,如果sleazy有一个SO值为-3,somewhat sleazy讲有一个SO值:-3*(100%-30%)=-2.1.如果excellent有一个SO值为5,most excellent将有一个SO值:5*(100% + 100%) = 10。增强器从最靠近的词开始至SO值词进行递归应用,如果good有一个SO值为3,则really very good有一个SO值为(3 × [100% + 25%]) × (100% + 15%) = 4.3。
上一篇:有向图的特定模式搜索和优化
下一篇:ASP.net+sqlserver单位办公用品管理系统设计+源代码

基于Apriori算法的电影推荐

PHP+IOS的会议管理系统的设计+ER图

数据挖掘在电子商务中的应用

数据挖掘的主题标绘数据获取技术与实现

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

志愿者活动的调查问卷表

承德市事业单位档案管理...

神经外科重症监护病房患...

国内外图像分割技术研究现状

C#学校科研管理系统的设计

10万元能开儿童乐园吗,我...

公寓空调设计任务书

中国学术生态细节考察《...

AT89C52单片机的超声波测距...

医院财务风险因素分析及管理措施【2367字】