爬虫是搜索引擎的一个重要组成部分。为了克服通用搜索引擎的不足,面向主题的聚焦爬虫的研究应运而生。现在聚焦爬虫依然成为爬虫研究的热点方向之一。本文基于百度网盘的网络爬虫研究与实现即为聚焦爬虫的一种。较为著名的面向主题爬虫的研究在工业界有雅虎搜索,搜狗搜索等。随着知乎,微信等社区生态的火热,搜狗搜索与时俱进的发布了搜狗微信,搜狗知乎,投了广大知乎粉、微信粉的所好,吸引了大量的用户。主题爬虫的价值可见一斑。而在学术界,有北京理工大学的汪涛教授和南京大学的王超等代表性人物。84430
国内在智能爬虫研究方向主要有华东师范大学计算机应用研究所的杨德仁、南京大学计算机科学与技术系软件新技术国家重点实验室的朱炜、武汉大学信息管理学院的严亚兰、兰州理工大学电气工程与信息工程学院的董瑞洪等。国外有UniversityofCalifornia,LosAngelesJeongheeYi、UniversityofPatras,ChristosMakris等。论文网
随着网页量的急剧增加,通过对算法的研究和分布式爬虫设计的研究,高性能爬虫应运而生。算法的研究主要有结合人工智能的一些算法或者改进算法、基于非贪婪策略的网络蜘蛛搜索算法以及还有一些对特殊格式网页的抓取研究
百度网盘爬虫的研究现状:http://www.youerw.com/yanjiu/lunwen_100149.html