毕业论文

打赏
当前位置: 毕业论文 > 计算机论文 >

网络新闻文本中的命名实体自动抽取研究(3)

时间:2021-05-04 17:15来源:毕业论文
(1)汉语文本没有类似英文文本中空格之类的显示标示词的边界标识符,命名实体识别的第一步就是确定词的边界,即分词; (2)汉语分词和命名实体识

(1)汉语文本没有类似英文文本中空格之类的显示标示词的边界标识符,命名实体识别的第一步就是确定词的边界,即分词;

(2)汉语分词和命名实体识别互相影响;

(3)除了英语中定义的实体,外国人名译名和地名译名是存在于汉语中的两类特殊实体类型;

(4)现代汉语文本,尤其是网络汉语文本,常出现中英文交替使用,这时汉语命名实体识别的任务还包括识别其中的英文命名实体;

(5)不同的命名实体具有不同的内部特征,不可能用一个统一的模型来刻画所有的实体内部特征。

在命名实体中,时间词和数量词的识别相对容易,现行通用的是基于规则的方法:实体名(人名、地名和机构名)识别是研究的焦点。

2.3 命名实体抽取方法分析

目前绝大部分信息抽取方法都是有导的(Supervised)学习方法,主要分为两类,一是知识工程方法(Knowledge Engineering Approach),二是自动训练方法(Automatic Training Approach)。国外对于英文命名实体识别的研究开始比较早。英文命名实体的识别主要采用基于统计模型和机器学习的方法。英文命名实体的识别只需考虑词本身的特征而不涉及分词问题,因此实现难度相对较低,目前已经达到一个较高的水平。根据MUC评测结果,测试的准确率和召回率可以达到97%左右。

由于中文命名实体识别起步较晚和中文内在的特殊性两方面的原因导致中文命名实体识别的水平相当于国外显得比较落后。中文内在的特殊性决定了在文本处理时首先必须进行词法分析,这就加大了中文命名实体识别的难度。近年来随着计算机信息检索技术的不断发展,中文命名实体中文命名实体识别已成为学术界研究的热点课题,国内外很多学者和专家进行了深入的研究。根据查阅的文献,目前中文命名实体识别的方法主要有:基于规则的方法、基于统计的方法、规则和统计相结合的方法:

(1)基于规则的方法:在中文命名实体识别的早期研究中,大多采用人工总结各种判定规则,然后通过规则匹配的方法识别各种类型的命名实体。规则方法主要是利用两种信息:命名实体用字分类而后限制性成分。即:分析过程中,当扫描到具有明显特征的命名实体用字时,开始触发命名实体的识别过程,并采集命名实体前后相关的成分,对命名实体的前后位置进行限制。

基于规则的系统,通过分析命名实体的内部和外部特征,人工构造规则模板实现命名实体的识别。基于规则的命名实体识别方法在小规则测试效果较好,速度快。但是,规则方法存在一些缺点:

a、无论是人工总结出判定规则,还是收集规模巨大的命名实体库与真实原料库,都对语言知识要求较高,需要很大的人力物力。

b、一旦增加新特征的命名实体,或移植到其它语言就必须对以前的规则重新修订,增加新规则,规则方法很难扩展。

c、规则虽然可以保证很高的准确率,但是覆盖范围都是有限的,对于覆盖范围之外的命名实体就完全无能为力。

d、规则较多时还会引起规则之间的冲突

(2)基于统计的方法:是利用人工标注的语料进行训练,标注语料时不需要广博的语言学知识,并且可以再较短时间内完成。在CoNLL-2003会议上,所参赛的16个系统全部采用基于统计的方法,该方法称为目前研究的主流方法。[2]这类系统在移植到新的领域时可以不做或少做改动,只要利用新语料进行一次训练即可。基于统计机器学习的方法主要有:隐马尔科夫模型、最大熵模型、决策树、boosting、支持向量机以及传统的概率统计方法、条件随机场。 网络新闻文本中的命名实体自动抽取研究(3):http://www.youerw.com/jisuanji/lunwen_74783.html

------分隔线----------------------------
推荐内容