图 5 Linear chain CRF 8
图 6 义项个数-统计次数 11
图 7 读音个数-统计次数 12
基于释义语料库的词汇语义引证知识抽取及分析研究
引言:50多年前,美国的著名情报学家和科学计量学家尤金•加菲尔德(Eugene Garfield)首创《科学因为索引》(SCI)、《社会科学引文索引》(SSCI)等各种数据库,提出、带动了“引文分析”这个新的研究领域的的发展。引文数据库主要记录了施引文献和被引文献间的内在关系并将这种关系用二次文献的形式予以表现[1]。通过对引文数据进行相关性分析、类别鉴定和概念描述等挖掘分析,可以发现引用文献分布规律,揭示文献内在属性。通过分析文献利用情况及其有效性可以帮助提高文献的利用率[2]。
自然语言处理是计算机科学与人工智能领域相结合的一个重要研究方向,主要研究人与计算机之间使用自然进行有效通信的理论和方法。而命名实体识别(Named Entity Recognition,简称NER)又是自然语言处理中的一个重要研究方向。其主要任务是研究如何从大量数据中准确、高效地获取有价值的信息。就目前而言,命名实体的识别从方法可以分为基于规则和基于统计两大类。早期研究主要使用基于规则的方法,但碍于其自身的局限性:人工编制规则过程过于复杂、机器学习效率低等,后来的研究逐渐转向基于统计的方法。在长时间的实践后,人们发现这二者单独使用都有不可避免的缺憾,所以近几年的研究主要集中在如何将基于规则和基于统计的方法相结合以达到效果更佳的抽取策略[3-4]。文本信息的抽取有别数字、日期等具有固定格式的数据,称为近些年研究的热点。常用的自然语言处理模型有隐马尔科夫模型(HMM)、最大熵模型(ME)和条件随机场模型(CRF)等。因为隐马尔可夫模型的独立性假设,无法灵活引入多种特征,最大熵模型普遍存在标记偏置问题,而线性链结构的条件随机场(CRFs)可以对整个序列范围内归一化,计算联合概率,妥善解决了HMM和ME的缺陷,,成为本研究最终选择的实验模型。
本文抽取《汉语大词典》语义引证数据,利用基于规则的抽取方法获取其内部、外部特征。对清洗、处理过的外部特征数据进行了描述性统计分析,探讨引证书目相关信息的具体分布情况。利用CRF条件随机场进行十折交叉检验对预处理后的内部语料进行训练、测试,得到可应用于该词典引证实体抽取的有效模型,最高准确率达87%,召回率93%。
释义语料库简介
早在上个世纪20年代就有学者为制定汉字字表开始筹建语料库[13]。80年代中期建成的国内第一个语料库《上海交大科技英语语料库》为我国外语教学做出了积极贡献。一直到2003年之后,相关研究语料库的论文才渐渐增多,应用领域也从最开始的语料库语言学对教学的作用探讨慢慢扩展到其他学科领域[14]。
我们一般认为,语料库是真实生活中出现过的语言的集合,常用研究领域有教学、翻译、语法、语义、词典和词汇研究。根据语料库涵盖的预料范围和适用领域通常可分为以下五种语料库:通用语料库;专用语料库;平行语料库;可比语料库以及学习者语料库[15]。其中通用语料库主要用于一般性的语料库研究,是目前最为常见的语料库种类。随着语料库相关研究的星期和发展,其在词典学研究和辞典编撰起到的不可或缺的作用已被各方认同。从最开始的为词典提供例证,到在词典释义方面有着日益突出的价值贡献。 基于释义语料库的词汇语义引证知识抽取及分析研究(2):http://www.youerw.com/jisuanji/lunwen_26534.html