Hownet中含有丰富的词汇语义知识和世界知识,为自然语言处理和机器翻译等方面的研究提供了宝贵的资源。
Hownet的基本思想是设想所有的概念都可以分解成各种各样的义原,同时应该有一个有限的义原集合,其中的义原组合成一个无限的概念集合。如果能够把握这一有限的义原集合,并利用它来描述概念之间的关系以及属性与属性之间的关系,就有可能建立所设想的知识系统[20]。
Hownet作为一个知识系统,实副其名是一个网而不是树。它所着力要反映的是概念的共性和个性,例如对于“医生”和“患者”,“人”是它们的共性。Hownet在主要特征文件中描述了“人”所具有的共性,那么“医生”的个性是他是“医治”的施事,而“患者”的个性是他是“患病”的经验者。同时Hownet还着力要反映概念之间和概念的属性之间的各种关系。Hownet把下面的一种知识网络体系明确的教给了计算机进而使知识对计算机而言是可操作的。
Hownet是一个以上述各类概念为描述对象的知识系统,而不只是一部语义词典。
尽管被我们称为知识词典的常识性知识库是Hownet的最基本的数据库。Hownet的全部的主要文件包括知识词典构成了一个有机结合的知识系统"例如,主要特征文件、次要特征文件、同义、反义以及对义组的形成,以及事件关系和角色转换等都是系统的重要组成部分,而不仅仅是标注的规格文件。
2.2 Hownet中的“概念”和“义原”
董振东先生反复强调, Hownet并不是一个在线的词汇数据库, Hownet不是一部语义词典。在介绍Hownet的结构之前,我们首先要理解Hownet中两个主要的概念“概念”与“义原”。“概念”是对词汇语义的一种描述。每一个词可以表达为几个概念。“概念”是用一种“知识表示语言”来描述的,这种“知识表示语言”所用的“词汇”叫做“义原”。“义原”是用于描述一个“概念”的最小意义单位。
Hownet认为义原是最基本的、不易于再分割的意义的最小单位。在知网中,利用汉字进行考察和分析来提取这个有限的义原集合。因为中文中的字(包含单纯词)是有限的,并且它可以被用来表达各种各样的单纯的或复杂的概念,以及表达概念与概念之间、概念的属性与属性之间的关系。知网设想所有的概念都可以分解成各种各样的义原,并应该有一个有限的义原集合,其中的义原组合成一个无限的概念集合。Hownet的建设过程就是把握了这一有限的义原集合,并利用它来描述概念之间的关系以及属性与属性之间的关系,最后建成了设想的知识系统。
与一般的语义词典如《同义词词林》或WordNet不同,Hownet并不是简单的将所有的“概念”归结到一个树状的概念层次体系中,而是试图用一系列的“义原”来对每一个 “概念”进行描述。
Hownet2000(2.0版)中一共采用了约1500义原,这些义原分为以下几个大类
1) Event|事件
2) Entity|实体
3) Attribute|属性
4) aValue|属性值
5) quantity|数量
6) qValue|数量值
7) SecondFeature|次要特征
8) Syntax|语法
9) Antonyin|反义词
10) Converse|对义词
11) EventRole&EventFeatures|动态角色和属性[20]。
对于这些义原,我们把它们归为三组:第一组,包括第1到7类的义原,我们称之为“基本义原”,用来描述单个概念的语义特征;第二组,只包括第8到10类义原,我们称之为“语法义原”,用于描述词语的语法特征,主要是词性(Part of Speech);第三组,包括第11类的义原,我们称之为“关系义原”,用于描述概念和概念之间以及概念的属性与属性之间的关系(类似于格语法中的格关系)。 基于Hownet的情感词典构建研究(5):http://www.youerw.com/jisuanji/lunwen_9268.html