1.4 论文组织结构 4
1.5 本章小结 4
2 Hadoop整体架构 5
2.1 HADOOP生态系统简介 5
2.2 HDFS分布式文件系统和MAPREDUCE编程模型 6
2.3 FLUME数据采集 10
2.4 HIVE数据挖掘 11
2.5 HBASE分布式数据库 12
2.6 SQOOP并行数据迁移 14
2.7 本章小结 15
3 web日志挖掘系统的设计与实现 16
3.1 WEB日志挖掘需求分析 16
3.1.1 数据格式简介 16
3.1.2 存在的问题分析 16
3.1.3 系统功能需求分析 17
3.2 WEB日志挖掘系统整体设计 18
3.3 数据采集系统设计 19
3.4 WEB日志预处理设计 20
3.4.1 Map和Reduce函数的设计 21
3.4.2 MapReduce函数的部分主要代码 21
3.5 数据迁移和数据展示系统设计 24
3.6 本章小结 25
4 系统测试与结果分析 26
4.1 系统的测试 27
4.1.1 测试环境 27
4.1.2 软件的配置 29
4.1.3 hadoop集群测试 34
4.2 结果分析 38
4.2.1 结果分析 41
4.2.2 性能测试 47
5 总结与展望 50
5.1 本文工作总结 50
5.2 未来的工作展望 51
致谢 52
参考文献 53
1 绪论
本文首先介绍了课题的研究背景,主要介绍了web日志挖掘的一些研究现状,并且分析其存在的一些问题,并对存在的问题进行阐述;然后介绍分布式框架hadoop的发展情况,在此基础上,详细介绍了本文的研究目标,研究内容和意义;最后简介本文的组织结构[1]。
1.1 研究背景
Web2.0带给人们不同寻常的服务,人们也越来越依赖于互联网和web服务,人们在互联网上冲浪,在互联网上浏览新闻、聊天、购物,每个人都是一个互联网终端,都是互联网的自媒体,不夸张的说,现在就是一个人人互联的信息时代。Web在这个时代扮演着重要的角色,web是一个时时刻刻变化着的信息系统,而且web网站的种类也有很多,包括新闻性网站(网易,新浪),互动式网站(百度贴吧),购物式网站(京东商城),个人网站(博客),数量也是越来越多,2010年底全球网站数量是2.55亿个,2012年底网站数量是5.55亿个,同比增长117.6%。2015年网站数量预计超过10亿个。
Web数量和种类的急剧增长的同时,网名数量也在急剧增长中,新华网7月公布数据显示,截至2015年6月,我国互联网网名数量超过6.68亿人。访问人口的增加和网站数量的增长,使得web日志的数量呈几何数量增长,web的数据中心,数据量快速增长,而且还将继续快速增长。每个用户点击web的时候,喜好和目的性都不一样,用户希望能够更快的选择出自己感兴趣的内容,而在这个信息大爆炸的时代,99%的web信息内容对于一个用户来说都是无效的,那么怎样才能帮助用户选择他感兴趣的内容,同时,也更好的改进自己的web网站就成了一个新的研究内容。Web日志挖掘就是为了解决这一个具有挑战性的问题而产生的[2]。
Web日志挖掘主要分为三类:web内容挖掘,web结构挖掘,web用户挖掘[3]。Web内容挖掘主要是从web中挖掘出有用的信息,web结构挖掘是试图从web链接结构中挖掘出有效的信息,而web用户挖掘主要是研究用户的访问习惯[4]。本文主要是基于hadoop对网站保留在apache服务器上的日志,日志存储了网站的所有访问的信息。 基于云平台的web日志挖掘与研究(2):http://www.youerw.com/jisuanji/lunwen_39773.html