摘要随着信息的过量增长,面对大规模的信息,用户难以找到自己真正需要的信息,信息抽取技术应运而生。在该领域中命名实体是文本的基本信息要素,因而命名实体的抽取是信息抽取的基础。本文从介绍命名实体出发,基于FuDanNLP系统网络新闻文本中的命名实体自动抽取情况进行了研究。本论文主要分析了人名、时间、地名和机构名四类命名实体的抽取情况,通过测试发现该系统在自动抽取命名实体过程中存在的问题并分析了问题产生的原因,进而提出了改进方案。之后着重对机构名的抽取设定了规则和算法,在对改进后的系统进行了测评后,发现系统在抽取命名实体的查全率和查准率均有所提升,最后对系统的发展提出的展望。66770

毕业论文关键词  命名实体  网络新闻  信息抽取   FuDanNLP

毕 业 论 文 外 文 摘 要

Title   Study on Automatic Extraction of Named Entity in 

 e-News Text                   

Abstract

With the excessive growth of information, it’s very difficult for users

to find the information that they really need from large amounts of information. Then information extraction technology came into being, and the named entity is the basic information elements of text in this field. In this paper, I firstly describe named entities and research the named entity automatic extraction in cyber news text by using FuDanNLP system. This paper analyzes the extraction of four types of named entities , namely names, times, places and organization names. After doing experiment , I found the problems in FuDanNLP system and explored the causes of these problems. And I improve the system. Besides, I reset the rules and designed algorithms of the extraction of organization names. Finally, I evaluated the new system and find the accuracy rate and the recall rate of the system are increased. But there’re many problems in the new system, so I finally put forward prospect.

Keywords  named entity ; e-news;  information extraction;  FuDanNLP

目   次

1 引言 1

2 命名实体综述 1

2.1命名实体的类型 1

2.2 命名实体的识别 2

2.3 命名实体抽取方法分析 2

3 网络新闻文本中的命名实体分析 4

3.1 新闻文本的特点分析 4

3.2 网络新闻文本的特点 4

3.3 网络新闻中的命名实体 5

3.3.1 人名的特点 6

3.3.2 地名的特点 6

3.3.3 机构名的特点 7

4 中文命名实体抽取系统——FuDanNLP 9

4.1 FuDanNLP简介 9

4.1.1 FuDanNLP的组织结构 9

4.1.2 FuDanNLP命令行调用使用示例 10

4.1.3 FuDanNLP目录组织机构 11

4.1.4 FuDanNLP Java包组织结构 11

4.1.5 FuDanNLP总体流程 12

4.2 命名实体识别 12

4.3 FuDanNLP的研发路线 12

4.4 性能测试

上一篇:网络外部性下电子商务网站的用户忠诚测评模型研究
下一篇:中英文Hashtag标签的比较研究

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

网络常见故障的分类诊斷【2055字】

网络安全的研究【1797字】

网络信息安全技术管理的...

Web技术的网络考试系统【2240字】

麦秸秆还田和沼液灌溉对...

我国风险投资的发展现状问题及对策分析

老年2型糖尿病患者运动疗...

网络语言“XX体”研究

张洁小说《无字》中的女性意识

安康汉江网讯

LiMn1-xFexPO4正极材料合成及充放电性能研究

互联网教育”变革路径研究进展【7972字】

ASP.net+sqlserver企业设备管理系统设计与开发

新課改下小學语文洧效阅...