垂直网站网络分布式爬虫的设计与实现(3)

图 3。13 DataNode 启动情况报告。 16

图 3。14 master:50070 查看总体情况 16

图 3。15 master:50070 查看 slave 结点情况 17

图 3。16 solr 控制界面 19

图 4。1 将 url 注入 crawldb 。。 21

图 4。2 产生抓取列表。。 22

图 4。3 根据抓取列表抓取网页 1 。 22

图 4。4 根据抓取列表抓取网页 2 。 22

图 4。5 nutch-site。xml 文件。 23

图 4。6 user-agent 初始化 23

图 4。7 getAgentString 函数。 24

图 4。8 HttpResponse 类中的 user-agent 25

图 4。9 问题三错误控制台显示 28

图 4。10 问题三 Job 完成情况显示 28

图 4。11 crawl 文件 29

图 4。12 问题三测试后控制台显示错误。。 29

图 5。1 运行 start-dfs。sh 命令。。 31

图 5。2 运行 start-yarn。sh 命令。 31

图 5。3 运行 mr-jobhistory-daemon。sh start historyserver 命令 31 图 5。4 控制台显示 solr 运行情况。 32

图 5。5 命令行终端分布式爬取数据。。 33

图 5。6 job 抓取情况 33

图 5。7 solr 查询数据界面。 34

图 5。8 hdfs 文件 crawld 文件夹内容显示 34

本科毕业设计说明书第 1 页

1 绪论

1。1 课题背景

众所周知，所有搜索引擎的祖先，是 1990 年由加拿大蒙特利尔 McGill 大学的学生 Alan Emtage、Peter Deutsch 和 Bill Wheelan 发明的 Archie(Archie FAQ) [2]。当时万维网还未出现，搜索引擎主要查询各个分散在 ftp 主机中的文件[8]。随着互联网的迅速发展，基于 http 的 web 技术迅速崛起，原来用于检索 ftp 文件的搜索引擎无法满足用户的需求。Matthew Gray 在 1993 开发出了第一个 Web 搜索引擎 Wandex；1994 年 1 月，第一个即可搜索又可浏览的分类目录 EINet Galaxy（Tradewave Galaxy）上线，同时提供对 Gopher 和 Telnet 搜索的支持[3]。。自从 web 的出现和指数级的增长，数百个不同特性的搜索引擎相继出现。垂直网站网络分布式爬虫的设计与实现(3):http://www.youerw.com/jisuanji/lunwen_88713.html