4.5 测试结果 16
4.5.1 查全率统计 16
4.5.2 查准率统计 21
4.6 测试结果分析 23
4.6.1 人名抽取 23
4.6.2 时间抽取 24
4.6.3 地名的抽取 24
4.6.4 机构名的抽取 25
5 相关改进方案设计 25
5.1 人名识别 25
5.1.1 中国人名的识别方法 25
5.1.2 规则改进 26
5.2 机构名识别 27
5.2.1 规则设定 27
5.2.2 算法设计 28
6 改进后的系统测评 30
6.1 测试结果 30
6.1.1 查全率统计 30
6.1.2 查准率统计 32
6.2 测试结果分析 34
结 论 35
致 谢 37
参 考 文 献 38
1 引言
随着计算机广泛应用于互联网的高速发展,网络信息不断爆炸式增长。信息的过量增长带来一定负面影响,面对大规模的信息,用户难以找到自己真正需要的信息。信息抽取(Information Extraction)正是在这种背景下产生并发展起来的。在信息抽取领域中,命名实体(Named Entity)是文本中基本的信息元素,是正确理解文本的基础。
2 命名实体综述
2.1命名实体的类型
命名实体是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等。广义地讲,命名实体还可以包括时间数量表达式等。
关于命名实体的分类也不是一成不变的,而是发生了一定的变化。由美国国防高级研究计划委员会资助的消息理解系列会议MUC(Message Understanding Conference),从1987年开始到1998年共举行了七届。在1995年9月举行的第六届MUC会议中,引入了命名实体识别评测人物,主要包含中文、英文和日文等三种语言的评测,1998年召开的MUC-7中命名实体被分为人名、地名、机构名、日期、时间、百分数和货币等七类。随着MUC会议的停止,从2000年开始由美国标准技术研究院组织的内容自动抽取评测会议(the Automatic Content Extraction.ACE)接过了MUC的任务,将信息抽取的研究推到了一个新的高度。ACE技术的研究发展目标是支持不同方式的分类、过滤和选择,通过抽取来呈现文本的内容,因此ACE需要发展自动检测和表现语言的意义的技术,ACE会议基本任务定义了实体检测和识别、数值检测和识别、时间检测和识别、关系检测和识别、事件监测和识别。[1]
一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
2.2 命名实体的识别
命名实体识别的过程通常包括两部分:(1)实体边界识别;(2))确定实体类别(人名、地名、机构名或其他)。
英语中的命名实体具有明显的形式标志(即实体中的每一个词的第一个字母要大写),所以实体边界识别相对容易,任务的重点是确定实体的类别。与英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。汉语命名实体识别的难点主要存在于: