文献综述命名实体识别的研究是从西方语言兴起的,早期的方法多是基于规则的,通过人工总结 规律,编写规则来实现。基于统计的方法方面,Bikel 等人提出的基于隐马尔可夫模型的识别 方法参与了 MUC-6 评测,并在评测中 F 值达到了 94。92%[6]。Borthwick 将最大熵模型应用于 命名实体识别领域,在 MUC-7 评测中 F 值达到了 85。50%[8]。Bender 等人实现了基于最大熵 模型的识别方法,在 CoNLL-2003 测评中 F 值达到了 83。92%[11]。McCallum 等人提出基于条 件随机场的识别方法,在 CoNLL-2003 测评中 F 值达到了 84。04%[12]。78941
在中文命名实体识别方面。1995 年,孙茂松等人通过分析人名的特点,对人名中的用词 计算频率,来进行人名识别,取得了很高的召回率[13]。1997 年,张小衡等人针对高校名和实 际语料,对机构名进行分析,总结了一定的规则来实现机构名的识别,达到了 97。3%的准确 率和 96。9%的召回率[14]。Gao 等人实现了 MARSeg 的自适应中文分词器,将中文命名实体识 别的问题用统一的方法来解决[15]。俞鸿魁等人提出层叠的隐马尔可夫模型算法,并实现了分 词系统 ICTCLAS,在 SIGHAN 的 BAKEOFF 评测中取得了很好的成绩[16]。
资源综述标注语料可以用于英文命名实体识别的语料有:CoNLL-2002 语料库、CoNLL-2003 语料库、
ACE-2004 多语言语料库等。
可以用于中文命名实体识别的语料有:香港城市大学的 CityU 语料库(1 772 202 字的训 练集)论文网,微软亚洲研究院的 MSRA 语料库(1 089 050 字的训练集)以及北京大学的 PKU 语料 库(1 833 177 字的训练集)[3]。
2 评测指标
很多国际会议上都会进行命名实体识别的评测, 如 MUC( Message Understanding Conference)、ACE(Automatic Content Extraction)、CoNLL(Conference on Computational Natural Language Learning)、IEER(Information Extraction-Entity Recognition Evaluation)和 SIGHAN
( The Special Interest Group for Chinese Information Processing of the Association for Computational Linguistics)[17]。
MUC 是由 DARPA(Defense Advanced Research Projects Agency)为促进信息抽取的研究 发展而建立的。在 MUC-6 上,首次引进了命名实体识别的专项评测,并在 MUC-6 和 MUC-7上设有多种语言的实体识别的评测任务[2]。1999 年的 ACE 会议设有实体识别与跟踪任务。之 后,在 2002 年和 2003 年,CoNLL 连续两年进行了命名实体识别的评测。
对于中文命名实体识别的评测,在国际上,有国际计算语言学会开展的 SIGHAN 评测。 从 2003 年起,SIGHAN 开始举办针对中文分词的评测 BAKEOFF,其中,2006 年的第三届 BAKEOFF 在之前评测的基础上加入命名实体识别的专项评测。在第三届 BAKEOFF 中,评 测的语料有简体和繁体两种,其中简体的语料来自微软亚洲研究院和 LDC,繁体的语料来自 香港城市大学[18]。在国内,主要是国家 863 计划的内部评测。其中,2003 年举办的 863 计划 中文信息处理与智能人机接口技术评测中首次引入命名实体识别的评测。
参 考 文 献
[1] Chinchor N, Robinson P。 MUC-7 named entity task definition[C]。Proceedings of the 7th Conference on Message Understanding。 1997: 29。
[2] Grishman R, Sundheim B。 Message Understanding Conference-6: A Brief History[C]。COLING。 1996, 96: 466-471。
[3] 孙镇, 王惠临。 命名实体识别研究进展综述[J]。 现代图书情报技术, 2010, 26(6): 42-47。
[4] 王宁, 葛瑞芳, 苑春法, 等。 中文金融新闻中公司名的识别[J]。 中文信息学报, 2002, 16(2): 1-6。 命名实体识别研究文献综述和参考文献:http://www.youerw.com/wenxian/lunwen_91095.html