毕业论文

打赏
当前位置: 毕业论文 > 计算机论文 >

网络新闻文本中的命名实体自动抽取研究(5)

时间:2021-05-04 17:15来源:毕业论文
(3)轻形式、重内容:由于网络新闻现大都来自传统媒体,大多原文转发,或是对标题进行略微修改,对原文进行一些删节,网络新闻的描述方式和内容

(3)轻形式、重内容:由于网络新闻现大都来自传统媒体,大多原文转发,或是对标题进行略微修改,对原文进行一些删节,网络新闻的描述方式和内容布局结构中体上没有大的变化。

3.3 网络新闻中的命名实体

网络新闻文中也有六个要素:人物、时间、地点、事件发生的原因、经过、结果,根据这些特性,并为了简化研究,将本文研究的命名实体归结为:人名、时间/日期、地名和机构名四类。

(1)网络新闻文本中的人名有:报告撰写者、新闻事件发生者、记者等。

(2)时间/日期包括新闻发表时间、新闻发生时间以及相关时间/日期。

(3)地名:命名实体中的地名与中文词语的地名大体相似,但命名实体中的地名更强调的是被大众所公认的、正式的地名。包括洲、州、国家、省、市、县、区等(不同国家地域划分方式不尽相同)。

(4)机构名:机构泛指机关、团体或其企事业单位,包括学校、公司、医院、研究所和政府机关等。

(5)事件名:指新闻中提及发生事件的名称。

3.3.1 人名的特点

为简化研究,本论文仅研究中国人名。中国人名数量众多、规律各异,有很大的随意性,对其进行识别的主要困难在于:(1)中国人名构成的多样性;(2)人名内部相互成词;(3)人名与其上下文组合成词;(4)歧义理解。

中国人名构成的形式有:(1)姓+名,如:、朱德、诸葛亮;(2)有名无姓,如:“海涛很高兴”;(3)有姓无名,如:“张说李已经离开北京了”;(4)姓+前后缀,如:、小吴、老李、熊某;(5)港澳台等地已婚妇女的姓名有时会冠夫姓,如:张李氏、彭张青; 

人名内部相互成词,指的是姓与名、名与名之间本身就是一个已经被核心词典收录的词,如:[王国]维、汪洋……根据我们对8万条人名的统计,内部成词的比例高达6.89%。[5]

人名与其上下文组合成词包括人名的首部(姓或名的首字)与人名的上文成词以及人名的尾部(姓或名的尾字)与下文成词,例如:“这里[有关]羽的介绍”;“费孝通向人大常委会提交书面报告。”[5]论文网

歧义理解主要是有同源歧义冲突引起的:“江苏省昆山周庄”中的“周庄”存在中国人名与地名的两种歧义理解,“郑重和同学”存在人名“郑重”和“郑重和”歧义。

3.3.2 地名的特点

本论文着重讨论中文地名的特点,中文地名主要有如下特点:

(1)中文地名数量大,没有明确规范的地名定义并且随着经济和社会的发展,会有新的地名不断出现。

(2)中文地名用词比较自由、分散,同时中文地名用词又有相对集中的覆盖能力。

(3)地名结尾经常有地名特征词出现,如“自治区、路、水库”。但地名特征词出现的情况比较复杂:既可以作为普通用词出现,又可以出现在地名其它位置。

(4)地名长度没有严格限制,短的如“京”,长的如“双江拉祜族佤族布朗族傣族自治县”。

(5)可作单字词的汉字在地名中经常出现,如“西|直|门、马|家|塔。”

(6)地名中不同位置可含有多字词,如“龙王|洞|山、兵书|宝剑|峡”等。

(7)地名有时同一些介词、动词、方位词之类的指示词出现,但有些指示词也可以作为地名组成部分。

(8)经常多个地名一起出现,如“/~吉林省~/~四平市~/~梨树县~/~梨树镇~/~霍家店村~/”。 网络新闻文本中的命名实体自动抽取研究(5):http://www.youerw.com/jisuanji/lunwen_74783.html

------分隔线----------------------------
推荐内容