命名实体识别是自然语言处理的基础任务。由于语料中的人名、地名、组织机构等命名实体数量不断增加,而又难以将其全部穷尽列出且其构成方法具有一定的规律性,因此,通常把对这些词的识别称为命名实体识别[5]。30681
命名实体识别的研究自MUC-6于1995年首次提出任务,技术已经得到了极大的进步。应用研究领域也进一步扩大。乔磊[6]等人通过正则表达式对收集的200篇科学家简介本文进行信息块抽取并以此为根据对人物属性进行规则描述,在规则的基础上研究开发人物信息抽取算法,最终实现了半结构化的人物属性信息的自动提取。该研究使用的基于规则的信息抽取的方法为本文提供了相应实体匹配的理论指导。孙荣[7]等在利用规则抽取句子中事件信息的试验中提出了一种新的基于规则的简单高效的事件信息抽取方法,通过在公司合并、中国足球、煤矿矿难和影视评论的数据集上进行测试得到地点信息识别率0.935,时间信息识别率0.94的有效验证。刘倩[8]等人在以在线百科为数据资源的实验中提出使用基于同一属性扩展的中文属性抽取方法。通过识别同义属性在一定程度上解决了属性名称的归一化问题,相比依靠频率的抽取方法可以获得覆盖范围更为广泛的实体属性集合。张练[9]在其研究领域信息抽取的硕士论文中对基于规则的命名实体抽取给出了详细的过程展示,并给出了根据算法ExtEntity识别领域实体的具体描述。实验部分证明了该文介绍的方法在识别领域实体时取得了不错的结果并且文中所述方法具有一定的移植能力。该文对于基于规则的领域实体识别框架的详细阐述为本文提供了研究思路上的指导。刘凯[10]、史晶晶[11]、许晓丽[12]等人在其关于中文命名实体识别的研究中都使用了CRF条件随机场作为序列标记任务的机器学习方法。其中许晓丽[12]在研究中提出了适合人名、地名以及组织名的特征函数模板并通过实验验证了各类特征的作用,分析其对识别结果的影响,通过将特征有机融合提高了命名实体识别的性能和识别率。刘凯[10]的研究是以中医临床病历作为数据源,通过手工标注病历数据与特征模板,比较条件随机场、隐马尔可夫模型和最大熵马尔科夫模型实际训练效果的比较得出条件随机场有最高的准确率和召回率的结论。史晶晶[11]在其研究Web机构实体信息抽取时,考虑到机构实体信息较为复杂,没有直接应用CRF模型而是提出了新的基于层叠条件随机场模型的抽取方法。高层模型用于识别网页块,低层模型以经过清洗的高层模型输出数据为输入进特征抽取。上述三个研究都利用了CRF对中文文本进行实体抽取,但并没有局限于已有用法,而是根据实际需要处理的数据对CRF的使用进行了调整优化。为本研究的命名实体抽取提供了实际实施过程中的技术指导论文网
参考文献:
[1] 郭喜跃,何婷婷. 信息抽取研究综述[J]. 计算机科学,2015,(02):14-17,38.
[2] 张敏勤. 基于引文数据库的数据挖掘应用研究[J]. 科技创新与应用,2013,(11):35-36.
[3] 石桢,姚天昉. 一种基于统计和规则的核心地名抽取方法[J]. 微型电脑应用,2013,(02):56-59.
[4] 金晨,牛离平. 网络环境下引文数据库的应用与发展[J]. 农业图书情报学刊,2007,(01):37-39.
[5] 江会星. 汉语命名实体识别研究[D].北京:北京邮电大学,2012:28.
[6] 马永萍. 正则表达式及其应用[J]. 电脑编程技巧与文护,2012,04:13-14,38.
[7] 乔磊,李存华,仲兆满,王俊,刘冬冬. 基于规则的人物信息抽取算法的研究[J]. 南京师大学报(自然科学版),2012,(04):134-139.
- 上一篇:真实盈余管理文献综述和参考文献
- 下一篇:网上银行文献综述和参考文献
-
-
-
-
-
-
-
NFC协议物理层的软件实现+文献综述
上市公司股权结构对经营绩效的影响研究
中国传统元素在游戏角色...
C++最短路径算法研究和程序设计
江苏省某高中学生体质现状的调查研究
现代简约美式风格在室内家装中的运用
浅析中国古代宗法制度
巴金《激流三部曲》高觉新的悲剧命运
高警觉工作人群的元情绪...
g-C3N4光催化剂的制备和光催化性能研究