垂直网站网络分布式爬虫的设计与实现(2)_毕业论文

毕业论文移动版

毕业论文 > 计算机论文 >

垂直网站网络分布式爬虫的设计与实现(2)

2。1。2 nutch 爬取过程 5

2。2Hadoop 简介 6

2。3solr 简介 7

2。4  本章小结 8

3 环境搭建 9

3。1 JAVA 环境安装 9

3。2 Ant 的简介与安装 10

3。3 Hadoop  集群搭建 11

3。4 nutch 环境配置 17

3。5 Solr 环境配置 18

3。6  本章小结 20

4 系统测试与分析 21

4。1 问题一 21

4。2 问题二 27

4。3 问题三 27

4。4 本章小结 30

5 分布式爬取 31

5。1 分布式爬取过程 31

5。2 本章小结 34

6 总结 35

致 谢 36

参考文献 37

图 2。1  nutch 结构图                        4 

图 2。2  nutch 分步抓取流程图                    。 6 

图 2。3  Hadoop 集群结构图                     。 7 

图 2。4  solr 实现原理图                       8 

图 3。1  JAVA_HOME 目录                       10 

图 3。2  java 版本显示                      。 10 

第 II 页 本科毕业设计说明书 

图 3。3  ant 版本显示                      。。 11 

图 3。4  修改 hosts 文件                       11 

图 3。5  ssh 密钥生成                      。。 12 

图 3。6  无密码登录 slave 结点                     12 

图 3。7  core-site。xml 文件配置                   。 13 

图 3。8  hdfs-site。xml 文件配置                   。 13 

图 3。9  mapred-site。xml 文件配置                  。。 14 

图 3。10  yarn-site。xml 文件配置                    14 

图 3。11  jps 显示 master 结点工作进程                 。 15 

图 3。12  jps 显示 slave 结点工作进程                 。。 15  (责任编辑:qin)