图 3。13  DataNode 启动情况报告                   。 16 

图 3。14  master:50070 查看总体情况                   16 

图 3。15  master:50070 查看 slave 结点情况                 17 

图 3。16  solr 控制界面                       19 

图 4。1 将 url 注入 crawldb                    。。 21 

图 4。2  产生抓取列表                      。。 22 

图 4。3  根据抓取列表抓取网页 1                   。 22 

图 4。4  根据抓取列表抓取网页 2                   。 22 

图 4。5  nutch-site。xml 文件                    。 23 

图 4。6  user-agent 初始化                      23 

图 4。7  getAgentString 函数                    。 24 

图 4。8 HttpResponse 类中的 user-agent                  25 

图 4。9  问题三错误控制台显示                     28 

图 4。10  问题三 Job 完成情况显示                    28 

图 4。11  crawl 文件                        29 

图 4。12  问题三测试后控制台显示错误                 。。 29 

图 5。1  运行 start-dfs。sh 命令                    。。 31 

图 5。2  运行 start-yarn。sh 命令                    。 31 

图 5。3 运行 mr-jobhistory-daemon。sh start historyserver 命令            31 图 5。4 控制台显示 solr 运行情况                   。 32 

图 5。5  命令行终端分布式爬取数据                  。。 33 

图 5。6  job 抓取情况                        33 

图 5。7  solr 查询数据界面                     。 34 

图 5。8  hdfs 文件 crawld 文件夹内容显示                  34 

本科毕业设计说明书 第 1  页

1 绪论

1。1 课题背景

众所周知,所有搜索引擎的祖先,是 1990 年由加拿大蒙特利尔 McGill 大学的学生 Alan Emtage、Peter Deutsch 和 Bill Wheelan 发明的 Archie(Archie FAQ) [2]。当时万维网还未出现, 搜索引擎主要查询各个分散在 ftp 主机中的文件[8]。随着互联网的迅速发展,基于 http 的 web 技术迅速崛起,原来用于检索 ftp 文件的搜索引擎无法满足用户的需求。Matthew Gray 在 1993 开发出了第一个 Web 搜索引擎 Wandex;1994 年 1 月,第一个即可搜索又可浏览的分类目录 EINet Galaxy(Tradewave Galaxy)上线,同时提供对 Gopher 和 Telnet 搜索的支持[3]。。自从 web 的出现和指数级的增长,数百个不同特性的搜索引擎相继出现。

上一篇:i-jetty人脸识别系统设计
下一篇:Word2Vec和cosine相似度程序能力智能辅助训练平台设计

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

基于消费者个性特征的化...

网络常见故障的分类诊斷【2055字】

网络安全的研究【1797字】

网络信息安全技术管理的...

张洁小说《无字》中的女性意识

麦秸秆还田和沼液灌溉对...

新課改下小學语文洧效阅...

互联网教育”变革路径研究进展【7972字】

我国风险投资的发展现状问题及对策分析

LiMn1-xFexPO4正极材料合成及充放电性能研究

安康汉江网讯

老年2型糖尿病患者运动疗...

网络语言“XX体”研究

ASP.net+sqlserver企业设备管理系统设计与开发