CRFs模型面向情感分析的领域知识库构建研究(6)
时间:2017-06-12 21:51 来源:毕业论文 作者:毕业论文 点击:次
4)Protégé Protégé[ ]是由斯坦福大学Stanford Medical Informatics用Java编写开发的一个开放源码本体编辑器,用户可免费下载使用,并不需联网。Protégé支持多重继承,并对新数据进行一致性检查。Protégé可以通过一系列插件来扩展其功能,包括语言转换插件(支持F-logic、Jess、OIL、XML、prolog转换)、本体合并插件PROMPT、本体视图插件(OntoViz)、约束检验插件PAL(Protégé Axiom Language)、知识获取插件、形式化概念分析插件(Formal Concept Analysis)等。同时Protégé具有很强的可扩展性,主要表现在如下几点: (1)Protégé是一个可扩展的知识模型。用户可以重新定义系统使用的表示原语。 (2)文件输出格式可以定制。可以将Protégé的内部表示转换成多种形式的文本表示格式,包括XML、RDF(S)、OIL、DAML、DAML+OII、OWL等系列语言。 (3)用户接口可以定制。提供可扩展的API接口,用户可以更换Protégé的用户接口的显示和数据获取模块来适应新的语言。 (4)有可以与其它应用结合的可扩展的体系结构。用户可以将其与外部语义模块(例如针对新语言的推理引擎)直接相连。 (5)后台支持数据库存储,使用JDBC和JDBC-ODBC桥访问数据库。由于Protégé开放源代码,提供了本体建设的基本功能,使用简单方便,有详细友好的帮助文档,模块划分清晰,提供完全的API接口,以及良好的中文支持,因此,它基本上成为国内外众多本体研究机构的首选工具。本文也采用了Protégé作为本体构建工具。 2.3.3 本体的构建方法 目前尚没有一套标准的本体构建方法,但一般认为,构建本体应遵循Gruber提出的5条规则[ ]: (1)明确性和客观性(Clarity and Minimal Encoding Bias):本体用自然语言对术语给出明确、客观的定义,对概念的描述不应该依赖于某一种特殊的符号。 (2)完整性(Integrity):所给出的定义是完整的,能表达特定术语的含义。 (3)一致性(Coherence): 本体应该是一致的,也就是说,知识推理产生的结论与术语本身的含义不产生矛盾。它所定义的公理以及用自然语言进行说明的文档都应该具有一致性。 (4)可扩展性(Extendibility):本体应该为可预料到的任务提供概念基础, 向本体中添加通用或专用的术语时,通常无须修改已有的概念定义。 (5)最少约束(Minimal Ontology Commitment):只要能够满足特定的知识共享需求,本体约束条件就应该尽可能少。这可以通过定义约束最弱的公理以及只定义通讯所需的词汇来保证。 2.4 数码商品评论领域本体的构建 本文旨在构建中文数码商品评论的领域本体,采用斯坦福大学医学院开发的“七步法”(seven-steps)[ ]作为指导,提出了一种面向中文数码商品评论的本体构建流程,并采用OWL作为本体描述语言。本节将以手机领域为例,实现手机的评论信息本体的构建。其主要流程如图2.3所示: 图2.3 领域本体构建流程 2.4.1 确定本体的领域和数据来源 本以手机的中文评论信息为研究领域并完成本体的构建,以辅助完成中文商品评论内评论对象的抽取。因此该本体中包含的概念主要来自两个领域:①中文商品评论中评论对象的所属领域,本文即手机领域;②能够显示所评论对象以及中文商品评论的情感倾向的指示词。 (1)手机领域概念的数据来源 目前手机领域并未行程规范的行业分类标准或成熟的叙词表,因此为保证领域知识来源的可靠性和科学性,本研究中手机领域知识的主要来源是IT专业门户网站—中关村在线的手机频道和各品牌手机(如诺基亚、三星、摩托罗拉)官方网站。 (责任编辑:qin) |