网络技术的高速发展的同时,我们必须重视“信息爆炸”所带来的问题,即信息极大丰富而知识相对匮乏。据估计,Web 已经发展成为拥有3亿页面的分布式信息空间,而且这个数字仍以每4至6个月翻一倍的速度增加[1]。另外,每天有数十万的网页更新,数百万的新的网页加入,使得Internet上的信息丰富而又复杂。在这些海量、异质的网络信息资源中,蕴含着拥有巨大潜在价值的知识。面对如此庞大而且急剧增长的信息海洋,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。而文本信息处理就是通过计算机对文本从表及里、由此及彼的分析处理,不仅仅抽取包含其中的信息,更需要分析推理蕴涵其中的意义[2]。因此,对这些海量文本信息的处理成为研究者、有关专家、政府人员和市场研究关注的焦点。论文网
本设计来自总装备部技术基础项目“****科技情报处理平台”课题,是该课题研究内容的深入。
1.2国内外研究现状
2 系统分析与设计
2.1系统需求分析
文本是于历史悠久、应用广泛、使用灵活、认可度最高的信息载体,其文本信息处理研究主要包括分词研究、文本信息抽取、文本分类、文本信息检索、文本自动摘要等方面。在文本信息处理的过程中,“摘要”、“关键词”是对文档内容提供简要概括的元数据,对文档的“标题”、“主题类别”起着补充作用[4];文档自动摘要是利用计算机快速处理并自动总结出文档的核心内容,使得用户可以根据自动概括出的核心内容来判断文档的价值,从而大大提高用户准确获取信息的速度[5];自动文本分类是对大量的非结构化的文字信息(文本文档、网页等)按照给定的分类体系,根据文字信息内容分到指定的类别中去,是一种有指导的学习过程。文献综述
这三个部分构成了文本信息处理的基本内容。而基于特定主题的文本信息处理更是基于这些文本信息处理过程,因此,在系统的开发过程中,文本信息关键词的提取、文本信息自动摘要以及文本信息自动分类技术尤为显得的重要。