多线程并行搜索在信息处理中的应用(2)

3.1.5   Excel导出（打印）功能模块   14
3.1.6   筛选符合条件的项   15
3.1.7   程序判定   15
3.1.8   是否含有某个关键字   16
3.2   数据库设计   16
3.2.1   E-R图   16
3.2.2   关系模式   17
3.2.3   建表   17
4   系统实现   19
4.1   界面设计   19
4.2   使用说明   21
4.3   系统运行环境   22
4.4   测试   22
4.4.1   系统测试目的   22
4.4.2   测试方法   23
4.4.3   测试过程及结果   23
5   结论   31
致谢   32
参考文献   33
1   绪论
1.1   课题的背景及研究现状
随着信息技术的迅猛发展，信息经济的特征日趋明显，人们越来越重视对信息资源的开发和利用。Internet已经发展成为当今世界上最大的信息库和全球范围内传播知识的主要渠道，站点遍布全球的巨大信息服务网，为用户提供了一个极具价值的信息源。无论是个人的发展还是企业竞争力的提升都越来越多地依赖对网上信息资源的利用。新闻媒体机构需要跟踪全球热门网站，采集网络媒体，涵盖所有权威的媒体，每天要采集大量的新闻。电信行业需要及时呈现国内外的时事资讯，关注最新发生的社会事件，娱乐新闻，大量发布来自全球各地的资讯内容。政机关需要实时收集与业务工作相关的信息资源或新闻，为网民提供各方面的资讯和服务。金融、证券与企业需要定期或实时追踪、收集竞争对手的相关情报资料，收集竞争对手公开的用户信息以及其他公开的商业情报，每日掌握国内外财经信息等。网络监控部门需要对网络信息进行监控。网络公司需要降低运营成本、加大信息量。
网页链接采集系统主要是从internet某类站点进行链接分析和链接管理的系统，从网页中提取有效链接加工得到所需要的资源常常是网页信息处理的一部分部分资料，是网页信息采集的不可缺少的一部分。
1.1.1   课题的背景及研究目的
随着互联网的普及和网络技术的飞速发展，网络上的信息资源呈指数级增长，我们已经进入了信息化时代。信息技术渗透到社会生活的方方面面，人们可以从互联网上获得越来越多的包括文本、数字、图形、图像、声音、视频等信息。
然而，随着Web信息的急速膨胀，如何快速、准确地从浩瀚的信息资源中找到自己所需的信息却成为广大网络用户的一大难题。因而基于互联网上的信息采集和分类日益成为人们关注的焦点。
为了解决信息检索的难题，人们先后开发了如Archive、Google、Yahoo等搜索引擎。这些搜索引擎通常使用一个或多个采集器从Intemet(如www、FTP、Emall、News)上收集各种数据，然后在本地服务器上为这些数据建立索引，当用户检索时根据用户提交的检索条件从索引库中迅速查找到所需的信息。Web信息采集作为这些搜索引擎的基础和组成部分，发挥着举足轻重的作用。Web信息采集是指通过 Web页面之间的链接关系，从Web上自动地获取页面信息，并且随着链接不断的向所需要的Web页面扩展的过程。传统的Web信息采集的目标就是尽可能多地采集信息页面，甚至是整个Web上的资源，在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这样做的一个极大好处是能够集中精力在采集的速度和数量上，并且实现起来也相对简单。随着Intemet上各种信息的迅速增加，仅靠人工的方式来处理是不切实际的。对网页进行分类可以在很大程度上解决网页上信息杂乱的现象，并方便用户准确地定位所需要的信息，因此，网页自动分类是一项具有较大实用价值的方法，也是组织和管理数据的有效手段。这也是本文研究的一个重要内容。多线程并行搜索在信息处理中的应用(2):http://www.youerw.com/jisuanji/lunwen_7926.html