2.1比较句识别与要素抽取概述
2.1.1比较句及比较句分类
汉语比较句在句法结构上是指由比较主体、客体、属性及比较规则等构成的文本句子;在语义上描述了两个或者两个以上对象在某个属性上的位置关系。参考文献[3][9]将比较句进行如下分类:
(1)平比(相等或类似)。表示两个事物在某方面相同或相似。
例如:
iphone和诺基亚N8的耐摔程度差不多。
比较规则主要有:“和/与/跟/同...一样/差不多”等。
(2)差比(分级)。表明两个事物之间有顺序上的差异,某一事物比另一事物好。
例如:
1.宝马的座椅坐着比奥迪舒服多了。
2.这款sd卡的存储速度不如上次买的闪迪的快。
3.华为的系统没有小米的简约好看。
比较规则多表达为:“比/不如/没有/没...+形容词”等。
(3)差比(不同)。只说明两个事物之间存在不同,但没有好坏之分。
例如:
毕加索和途安的细致程度、技术含量以及风格都存在差异。
比较规则多表达为:“不同,不一样”等。
(4)极比(最高级)。表明多个事物的极值,说明某个事物最优或者最差。
例如:
大众宝来是目前市场上销售最火的一款车。
比较规则多表达为:“最+形容词”等。
除了以上的分类方法外,还可将比较句进行如下分类:
(1)比较句。顾名思义,例如含有“比,不如,像,最,更”等词的句子。
(2)隐式比较句。顾名思义,此类比较句是指句法结构上未含有明显的比较词词汇,但是在语义方面确实属于比较含义。例如句子“这本书价值24元,那本书价值55元”。虽然只是在叙述两个事物的客观情况,并没有显示比较词来进行比较,但是语义上却可以看出来确实是比较含义。
2.1.2比较句识别概述
比较句识别的任务就是在给定非比较句与比较句的混合文本中识别出比较句。该识别任务的实质是一种分类问题,其关键是找到能够区分非比较句与比较句的特征。从语言特征来看,二者存在着词汇上的差异,所以可以通过传统的文本分类技术;从语序差异来看,序列模式匹配也可以用来进行比较句的识别。 面向电商平台商品评论的比较句挖掘算法(3):http://www.youerw.com/jisuanji/lunwen_30700.html