垂直网站网络分布式爬虫的设计与实现(2)
时间:2022-01-19 22:45 来源:毕业论文 作者:毕业论文 点击:次
2。1。2 nutch 爬取过程 5 2。2Hadoop 简介 6 2。3solr 简介 7 2。4 本章小结 8 3 环境搭建 9 3。1 JAVA 环境安装 9 3。2 Ant 的简介与安装 10 3。3 Hadoop 集群搭建 11 3。4 nutch 环境配置 17 3。5 Solr 环境配置 18 3。6 本章小结 20 4 系统测试与分析 21 4。1 问题一 21 4。2 问题二 27 4。3 问题三 27 4。4 本章小结 30 5 分布式爬取 31 5。1 分布式爬取过程 31 5。2 本章小结 34 6 总结 35 致 谢 36 参考文献 37 图 2。1 nutch 结构图 4 图 2。2 nutch 分步抓取流程图 。 6 图 2。3 Hadoop 集群结构图 。 7 图 2。4 solr 实现原理图 8 图 3。1 JAVA_HOME 目录 10 图 3。2 java 版本显示 。 10 第 II 页 本科毕业设计说明书 图 3。3 ant 版本显示 。。 11 图 3。4 修改 hosts 文件 11 图 3。5 ssh 密钥生成 。。 12 图 3。6 无密码登录 slave 结点 12 图 3。7 core-site。xml 文件配置 。 13 图 3。8 hdfs-site。xml 文件配置 。 13 图 3。9 mapred-site。xml 文件配置 。。 14 图 3。10 yarn-site。xml 文件配置 14 图 3。11 jps 显示 master 结点工作进程 。 15 图 3。12 jps 显示 slave 结点工作进程 。。 15 (责任编辑:qin) |