随着互联网的迅速发展,网络的使用用户越来越多,使用用户越来越多使得网络中的数据十分庞大,虽然现在网络更加强大,但是越来越多的数据同样让检索所有的网页越来越困难,因此,越来越多的编程者尝试实现一种高效的搜索功能,为了使网页检索功能更加有效率一些编程者在Matthew Gray的Wanderer基础上改进了传统的“蜘蛛”程序工作原理。其设想是根据每一个网页都可能有连向其他网站的链接,就这样从跟踪 一个网站的链接开始,一层层的另一个网页,从而检索整个互联网。43272

近十二年的爬虫集群开发经验:互联网上凡是人能看到的信息,都可以用机器自动化,大规模的爬取下来; 

德国全网 -> 国外全网口碑-> 中文全网口碑 -> 电商口碑评论 

高效,高可配置,低成本:通过大规模自动化控制的集群机制和高效可视化的爬虫模板配置特性,可以以低廉成本高效的大规模的爬取和扩展网络信息资源。当前计算机技术中几种比较常用的网络爬虫实现策略:广度优先的爬虫程序,Repetitive爬虫程序,定义爬行爬虫程序,深层次爬行爬虫程序:优尔!文~论`文/网www.youerw.com。此外, 还有根据概率论进行可用Web页的数量估算, 用于评估互联网Web规模的抽样爬虫程序; 采用爬行深度、页面导入链接量分析等方法, 限制从程序下载不相关的Web页的选择性爬行程序等等。

参考文献

[1]. Michelangelo Diligenti, Frans Coetzee, Steve Lawrence, etal. Focused Craw ling using Context Graph s[J ], Intemat ional Conference on Very Large Databases. 2002, (26) : P 527~534.

[2]. Wisenut.WiseNut Search Engine white paper [M].北京:中国电力出版社,2001,P 400~500.

[3]. Winter.中文搜索引擎技术解密:网络蜘蛛 [M].北京:人民邮电出版社,2004,P 234~457.

[4]. Sergey等.The Anatomy of a Large-Scale Hypertextual Web Search Engine [M].北京:清华大学出版社,1998,P 568~732.

[5]. Wisenut.WiseNut Search Engine white paper [M].北京:中国电力出版社,2001,P 300~432.

[6]. 王保罗.Java面向对象程序设计[M]. 北京:清华大学出版社,2003,P 327~434.

[7]. 高林,周海燕.Jsp网上书店系统与案例分析[M]. 北京:人民邮电出版社,2004,P 127~147. 

[8]. 菲茨杰拉德. 学习正则表达式. 北京:人民邮电出版社. 2013,P 87-91

[9]. 陶国荣. jQuery权威指南. 北京:机械工业出版社.2011,P 100-102

[10]. Silverstein, Craig, Marais, Hannes, Henzinger, & Monika, et al. Analysis of a very large web search engine query log. ACM SIGIR Forum, 1999,33(1), 6-12.

[11]. Liwen Vaughan, & Mike Thelwall. Search engine coverage bias: evidence and possible causes. Information Processing & Management, 2004,40(4), 693-707.

[12]. Lewandowski, D., Wahlig, H., & Meyer-Bautor, G. The freshness of web search engine databases. Journal of Information Science, 2006,32(2), 131-148.


上一篇:羽扇豆国内外研究现状和参考文献
下一篇:金针菇多糖国内外研究现状综述

微课国内外研究现状和发展趋势

翻转课堂国内外研究现状

国内外会议产业现状研究

会展场馆空间分布特征国内外研究现状

社区的三维可视化国内外研究现状

不同形貌SnO2纳米材料的光...

会展品牌塑造国内外研究现状综述

国内外图像分割技术研究现状

公寓空调设计任务书

10万元能开儿童乐园吗,我...

C#学校科研管理系统的设计

医院财务风险因素分析及管理措施【2367字】

承德市事业单位档案管理...

中国学术生态细节考察《...

神经外科重症监护病房患...

AT89C52单片机的超声波测距...

志愿者活动的调查问卷表