1 网络数据抓取系统的历史、分类及其发展趋势1.1 网络数据抓取系统的历史在早期的互联网发展时期,网站的数量有限,那时候网络信息数量还不大,查找信息也相对容易,而伴随着互联网的全球化高速发展,网络信息量激增,普通的网络用户想要找到自己所需的信息与资料如同大海捞针一样困难, 为满足大众对信息检索的需求,专页的搜索网站便由此应运而生。鼻祖搜索引擎是 Archie,由McGill University 的三名学生(Alan Emtage、BillWheelan、Peter Deutsch)发明,Alan Emtage三人想到了开发一个可用文件名来查找文件的系统,于是便有了Archie,Archie 程序是第一个可以实现自动索引互联网上匿名FTP 网站的文件的程序,不过它还不是真正的搜索引擎,它需要用户输入精确的文件名才能搜索,是一个可搜索的 FTP 文件名列表,然后再告诉用户哪个FTP 地址可以下载该文件[3]。因为Archie 深受欢迎,内华达系统计算服务大学(Nevada System Computing Services university)受其启发在 1993 年开发了一个 Gopher 的搜索工具Veronica。当时网络中的文件传输还是相当频繁的,尽管万维网还没有出现,而且因为大量的文件是散布在各个分散的 FTP 主机中的,所以查询起来特别不便。Alan Archie 利用脚本程序来自动搜索网上的文件,接着对有关信息进行索引,以供使用者用一定的表达式查询,因此它的工作原理跟现在的搜索引擎是很接近的。
在那个时候, 在编程者中非常流行 “机器人” 一词。 电脑 “机器人” (computerrobot)指的是能够以人类无法到达的某个速度不断地去执行某个任务的一种软件程序, 世界上第一个用来监测互联网的发展规模的 “机器人” 程序叫world wideweb wanderer,由 Matthew Gray开发,一开始它只是用来统计互联网上服务器的数量,后来发展成可以检索网站域名[4]。与 Wanderer 对应的是,Martin Kosher在 1993.10 创建了 Archie 的 HTTP 版本,ALIWEB。ALIWEB 没有使用“机器人”程序,类似于现在我们熟知的雅虎,它靠的是网站主动去提交信息以建立它自己的链接索引[5]。随着互联网的高速发展, 要检索所有新出现的网页便变得越来越困难。 因此,部分编程者在 Wanderer(Matthew Gray)的基础上将传统的网络数据抓取程序工作原理作了一些改进,直到一些编程者提出了一个设想:基于所有网页都可能存在与其他网站连接的链接,那么由跟踪一个网站的链接起,便有可以检索整个互联网的可能,到 1993 年底,纷纷涌现了一些基于该原理的搜索引擎,然而早期的搜索引擎排列搜索结果的方法, 仅是通过搜索工具在数据库中查询到匹配的信息的先后次序来,所以毫无信息关联度可言[6]。在搜索结果排序中引入了关键字串匹配程度概念,RBSE 引擎是第一个。1994 年7 月,出现了现代意义上最早的搜索引擎,当时Michael Mauldin 把 John Leavitt的网络数据抓取程序接入到了其索引程序中,于是创建了现在大家所熟知的 Lycos(于 2000 年被一个叫TerraLycos Network 的西班牙网络集团收购),同年4 月,斯坦福(Stanford)大学最著名的两位博士生,David Filo 和美籍华人杨致远(Gerry Yang)共同创办了雅虎(Yahoo)公司,他们成功地让搜索引擎的概念深入人心[7]。由此搜索引擎进入了井喷式的高速发展时期。到现在,互联网上已有数百家有名有姓的搜索引擎,它们检索的信息量也跟从前不可同日而语。例如国内的百度,国外的 Google 等搜索引擎巨擘因为掌握着大多数的入口流量,因此成为了互联网世界的霸主,并且带来了巨大的商业价值。随着互联网规模的逐渐扩大, 一家搜索引擎单只靠着自己已无法适应现在的市场,所以目前的搜索引擎之间出现分工协作的现象,并有专业的搜索数据库服务提供商与搜索引擎技术。源[自-优尔*`论/文'网·www.youerw.com/ C#众筹网络数据抓取系统的分析设计+源代码(2):http://www.youerw.com/jisuanji/lunwen_63493.html