3.2.3 功能需求 13
3.3 系统功能实现 14
4 网络爬虫 16
4.1 本系统所采用的搜索策略 16
4.2 HTMLPARSER 16
4.3 网络爬虫程序流程 17
4.3.1 爬虫主要流程代码 17
4.3.2 爬虫程序流程图 22
5 实验效果及分析 23
5.1 系统实验环境及配置 23
5.2 系统测试 23
6 全文总结 24
6.1 工作总结 24
6.2 研究展望 25
致谢 27
参考文献 28
1 绪论
网络的迅猛发展带来的是互联网信息的爆炸性增长,这使得互联网信息容量达到了一个空前的高度。然而,人们从互联网上获取信息的能力是有限的,人们越来越需要一种有效的途径可以帮助他们全面、快速、准确的获取信息。Web搜索引擎的出现解决了这一问题,它成为人们获取网络信息的必不可少的工具。然而,谁也无法确定互联网上到底有多少网页,保守估计,它至少包含成百上千亿的网页。互联网的规模十分庞大,每天都有无数的网站上线,无数的网页信息发布,无数的页面更新,所以,导致信息爆炸式增长的最根本原因在于人们无法集中控制网页内容的发布机制,这也为Web搜索引擎索引和检索这些发布的内容带来了巨大的挑战。
网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,采集信息,这些网页信息用于建立索引从而为搜索引擎提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。随着网络信息量几何级的增长,对网络爬虫页面采集的性能和效率的要求也越来越高。
目前较流行的搜索引擎已有Google, Yahoo, Info seek, baidu等。出于商业机密的考虑,目前各个搜索引擎使用的Crawler系统的技术内幕一般都不公开,现有的文献也仅限于概要性介绍。随着Web信息资源呈指数级增长及Web信息资源动态变化,传统的搜索引擎提供的信息检索服务已不能满足人们日益增长的对个性化服务的需要,它们正面临着巨大的挑战。以何种策略访问Web,提高搜索效率,成为近年来专业搜索引擎网络爬虫研究的主要问题之一。
1.1 课题开发背景
目前虽然有很多种搜索引擎,但各种搜索引擎基本上由三个组成部分:
(1)在互联网上采集信息的网页采集系统:网页采集系统主要使用一种工作在互联网上的采集信息的“网络蜘蛛”。“网络蜘蛛”实际上是一些基于Web的程序,利用主页中的超文本链接遍历Web。利用能够从互联网上自动收集网页的“网络蜘蛛”程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集到网页数据库中。
(2)对采集到的信息进行索引并建立索引库的索引处理系统:索引处理系统对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后建立索引并存入到网页索引数据库中。索引数据库可以采用通用的大型数据库,如Oracle,Sybase等,也可以自己定义文件格式进行存放。为了保证索引数据库中的信息与Web内容的同步,索引数据库必须定时更新,更新频率决定了搜索结果的及时性。索引数据库的更新是通过启动“网络蜘蛛”对Web空间重新搜索来实现的。 网络爬虫的设计与实现+文献综述(2):http://www.youerw.com/jisuanji/lunwen_5324.html