2。1。2 nutch 爬取过程 5

2。2Hadoop 简介 6

2。3solr 简介 7

2。4  本章小结 8

3 环境搭建 9

3。1 JAVA 环境安装 9

3。2 Ant 的简介与安装 10

3。3 Hadoop  集群搭建 11

3。4 nutch 环境配置 17

3。5 Solr 环境配置 18

3。6  本章小结 20

4 系统测试与分析 21

4。1 问题一 21

4。2 问题二 27

4。3 问题三 27

4。4 本章小结 30

5 分布式爬取 31

5。1 分布式爬取过程 31

5。2 本章小结 34

6 总结 35

致 谢 36

参考文献 37

图 2。1  nutch 结构图                        4 

图 2。2  nutch 分步抓取流程图                    。 6 

图 2。3  Hadoop 集群结构图                     。 7 

图 2。4  solr 实现原理图                       8 

图 3。1  JAVA_HOME 目录                       10 

图 3。2  java 版本显示                      。 10 

第 II 页 本科毕业设计说明书 

图 3。3  ant 版本显示                      。。 11 

图 3。4  修改 hosts 文件                       11 

图 3。5  ssh 密钥生成                      。。 12 

图 3。6  无密码登录 slave 结点                     12 

图 3。7  core-site。xml 文件配置                   。 13 

图 3。8  hdfs-site。xml 文件配置                   。 13 

图 3。9  mapred-site。xml 文件配置                  。。 14 

图 3。10  yarn-site。xml 文件配置                    14 

图 3。11  jps 显示 master 结点工作进程                 。 15 

图 3。12  jps 显示 slave 结点工作进程                 。。 15 

上一篇:i-jetty人脸识别系统设计
下一篇:Word2Vec和cosine相似度程序能力智能辅助训练平台设计

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

基于消费者个性特征的化...

网络常见故障的分类诊斷【2055字】

网络安全的研究【1797字】

网络信息安全技术管理的...

张洁小说《无字》中的女性意识

麦秸秆还田和沼液灌溉对...

新課改下小學语文洧效阅...

互联网教育”变革路径研究进展【7972字】

我国风险投资的发展现状问题及对策分析

LiMn1-xFexPO4正极材料合成及充放电性能研究

安康汉江网讯

老年2型糖尿病患者运动疗...

网络语言“XX体”研究

ASP.net+sqlserver企业设备管理系统设计与开发