基于统计机器学习命名实体识别技术研究_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

基于统计机器学习命名实体识别技术研究

摘要命名实体识别是分词的一项重要任务,也是分词的主要难点之一。本文对中英文命 名实体识别的相关研究及语料库、评测指标等资源进行了综述,探讨了中文命名实体的 特点及识别的难点,其中详细分析了人名、地名、机构名这三类各自的特点,并实现了 中文命名实体识别算法。该算法是基于真实的语料库,在角色标注的基础上,采用层叠 的隐马尔可夫模型的方法来实现的。该层叠模型分为四层,每层之间互相联系,自底向 上依次是人名识别层、简单地名识别层、嵌套地名识别层和机构名识别层。78941 

毕业论文关键词中文命名实体识别隐马尔可夫模型 角色标注

毕 业 设 计 说 明 书 外 文 摘 要

TitleNamed entity recognition technology based on statistical machine learning 

Abstract Named entity recognition is an important task in word segmentation,and one of the main difficulties in word segmentation。 Firstly, this paper reviews research and resources of Chinese and English named entity recognition, and then discusses on the characteristics and difficulties of Chinese named entity recognition。 Finally, it describes an approach for Chinese named entity recognition based on real corpus, based on role tagging and using the cascaded Hidden Markov Model。 This model is consists of four layers, each layer is in contact with other layers。 The four layers from bottom to top are name recognition layer, simple location name recognition layer, complex location name recognition layer and organization name recognition layer。

KeywordsChinese named entity recognitionHidden Markov Modelrole tagging

本科毕业设计说明书 第 I 页

1引言1 

2命名实体识别研究文献和资源综述2 

2。1文献综述

2。2资源综述 2 

3 中文命名实体的特点4 

3 。1 人名的特点 4 

3 。2 地名的特点 4 

3 。3 机构名的特点 5 

4隐马尔可夫模型6 

4 。1 概述 6 

4 。2 组成 6 

4 。3 三个典型问题 7 

4 。4解决问题的基本步骤 7 

4。5Viterbi 算法 8 

5 层叠的隐马尔可夫模型9 

5。1人名识别层 9 

5。2简 单 地 名 识 别 层 1 1 

5。3嵌 套 地 名 识 别 层 1 3 

5。4机构名 识别层1 4 

6 算法实现和实验分析16 

6。1算 法 实 现1 6 

6。 2 评 测 指 标 与 评 测 集 1 9 

6。 3 评 测 实 验 结 果 1 9 

6。 4 结 果 分 析2 1 结论 2 2 参考文献 23 

第 II页 本科毕业设计说明书

1 引言

命名实体识别主要是指识别出人名、地名、机构名等实体,日期、时间等时间词,以及 货币价值、百分比等数量词[1]。命名实体识别不仅是分词过程中的一个重要组成部分,还广 泛应用于信息抽取、机器翻译、问答系统、信息检索等其他多种自然语言处理技术。1996 年, 命名实体识别被首次用于 MUC-6,指出了人名、地名与机构名,以及时间、数量等数学表达 式在语义识别上有重要意义[2]。在此之后的 MUC-7 的 MET-2 以及 IEER-99、CoNLL-2002、 CoNLL-2003、IREX、LREC 等一系列国际会议上,都将命名实体识别作为评测指标之一[3]。 

目前,在英文命名实体识别方面,研究已经有很大的进展,获得了较好的识别效果,在 MUC 和 ACE 会议上,很多算法的评测结果的准确率、召回率、F1 值都能达到 90%。而中文 命名实体识别评测结果普遍比英文结果偏低,其中,以机构名的识别尤为困难。  (责任编辑:qin)