(3)规则和统计相结合的方法:目前一些系统将统计与规则结合起来,它采用统计方法对命名实体进行识别,利用规则机制对其进行校正过滤。
早期的规则系统面对大规模真实文本束手无策的原因在于语言学家编写的有限规则不能够全面、准确地描写输入符号串到输出符号串的映射。在这种情况下,统计语言模型以及统计和规则相结合的模型成为了当前的主流技术。
但是这些解决方案仍然存在一些不足:
a、命名实体的候选字段大都选取切分后的单字碎片,这样内部成词以及上下文成词的命名实体很难召回。
b、机器学习方法在某些样本上的表现很差,导致整体的识别效果不高。
c、基于机器学习的方法由于泛化不够,导致召回率偏低;另外,机器学习模型的学习能力有限,成为识别效果提高的瓶颈。[1]
3 网络新闻文本中的命名实体分析
随着社会的进步,互联网技术日渐成熟,网络新闻成为人们获取信息的主要渠道。与传统新闻相比,网络新闻尤其自身的特点:不但具有报纸、电视等的一般功能,而且有数字化、多媒体等的特殊优势。所以互联网中的网络新闻传播变得越来越重要。本研究就以网络新闻文本为基础进行命名实体抽取的研究。
3.1 新闻文本的特点分析
网络新闻归根到底也是新闻,因而具有一般新闻的普遍特性。
新闻,又称消息,通常分为动态新闻、综合新闻、典型报道和新闻述评四类。其中动态新闻是报纸、广播最常用的一种。它报道的是国内外最新发生的重大事件或新气象、新成就。
一般新闻具有三个特点,结构的五个部分,记叙的六个要素。
(1)新闻的三个特点是:内容真实、报道及时、语言简明准确。
(2)新闻结构的五个部分:标题、导语、主体、背景和结语。
(3)记叙的六个要素:人物、时间、地点、事件发生的原因、经过、结果。
3.2 网络新闻文本的特点
因为网络新闻是传统新闻的延伸,所以传统新闻所具有的特点,网络新闻都具有。即真实、新鲜、简明、精深,即立场是观点鲜明,内容是真实具体,反应是迅速及时,语言是简洁准确。此外网络新闻自身的众多技术特征又使网络新闻具备传统新闻所不具备的特点,本论文只着重于网络新闻文本内容的特点。
尽管网络新闻的写作要遵循传统新闻媒体写作的一般要求,但两者之间的差异日益明显。网络新闻文本从传统新闻文本中脱胎、解构出来,已经成长为相对独立、体现优势与特点并正在重构的新文本。研究这些差异,探究网络新闻文本在写作时的特殊要求,对识别抽取网络新闻文本中的命名实体具有重要的实际意义。
(1)相比较传统媒体新闻,网络新闻用词相对随意:因为网络新闻文本的来源比传统媒体广,有些新闻是专门从事网络新闻的工作者创作的,有些新闻是一些网站或报刊新闻的复制,也有一些新闻是网友自己编写的。网络新闻来源的多元化使网络新闻文本中既有专业化的语言也有个性色彩浓厚的语言。那些没有受过专业训练的编稿人撰写的新闻,一般用词较为随意。同时网站为了提高点击率也会选用一些吸引人而非专业的词汇来记叙新闻。
(2)新词频出是网络新闻文本的又一特性:因为网络新闻文本的受众一般是经常上网的较为年轻的人群,这类人群追求潮流、思维活跃,网络流行语也在以越来越短的时间进行着更替。为了增加阅读量,网络新闻文本会及时地对新闻语言进行更新,造成新词频出的现象。