4、web服务器的性能瓶颈:这个信息爆炸的时期,用户对于网站的效应速度容忍度已经达到毫秒的级别,因为一个网站的性能直接关系到用户的响应速度,所以对于性能的改进,对于用户的体验能够有很大的帮助,通过对web日志挖掘,可以看出网站性能的瓶颈在哪里,从而能够改进web的负载均衡及数据分布策略等。
1.4 论文组织结构
论文第一章主要介绍了本课题的研究背景,包括web日志数据量的快速增长,调研了国内外各种web日志挖掘工具的优缺点,分析了现在日志挖掘的瓶颈,引出分布式计算框架hadoop[13]。并且给出了本文的研究内容和研究意义。
论文第二章,重点介绍hadoop生态圈,介绍分布式存储系统HDFS的结构和运行机制,介绍mapreduce分布式计算框架的结构。并且介绍数据采集工具flume的运行机制,介绍基于mapreduce的HIVE数据挖掘工具、Hbase分布式数据库和sqoop并行数据迁移工具[14]。
论文第三章,介绍web日志挖掘的需求分析,重点介绍web日志挖掘系统的整体设计包括数据采集系统设计,web日志预处理算法设计,数据迁移和数据展示设计[15]。
论文第四章,主要进行系统的实现,并进行测试和性能分析。搭建测试环境,主要包括配置hadoop、HDFS、mapredece、Hbase、hive、sqoop、flume、mysql等框架;然后使用配置好的环境进行实验并对实验结果进行分析、性能测试、测试结果分析[16]。
论文第五章,主要是总结本文的工作,并对一些不足的地方提出改善的建议。
1.5 本章小结
本章主要介绍了本课题的研究背景,包括web日志数据量的快速增长,调研了国内外各种web日志挖掘工具的优缺点,分析了现在日志挖掘的瓶颈,引出分布式计算框架hadoop。并且给出了本文的研究内容和研究意义。最后列出了本文的组织结构,并简单介绍了每一章节的内容。
2 Hadoop整体架构
2.1 hadoop生态系统简介
Hadoop系统模型最初是受到Google公司的早期产品GFS、Map-Reduce和BigTable启发而进行立项的,并在2008年成为apache的顶级开源项目,全球开发者进行文护和开发。同时,随着这个hadoop生态系统的完善,已经不仅仅只是一个分布式文件系统和分布式计算框架,其包含了flume,hive,sqoop,hbase,impala,pig,mahout,zookeeper等子框架。其中HDFS类似于Google的GFS分布式文件系统,但性能优于GFS文件系统,其根本就是一个文件存储系统;mapreduce类似于Google的Map-Reduce分布式计算模型;Hbase非关系型数据库类似于Google的BigTable数据库;flume是一个服务器数据采集或者数据迁移框架,负责把所需的数据传输到HDFS或者其他分布式文件系统中;hive其实际是一个数据仓库,负责对建立于HDFS上的表进行数据分析和数据挖掘;sqoop是一个并行数据迁移框架,能够很好的连接传统型数据库(Oracle、mysql等)和HDFS上,并进行数据迁移;impala类似于hive角色,是新一代的数据挖掘工具,其性能优于hive;mahout是基于mapreduce开发的机器学习框架,包含了基本的分类,聚类机器学习算法;zookeeper是负责hadoop所有节点的负载均衡[1 基于云平台的web日志挖掘与研究(4):http://www.youerw.com/jisuanji/lunwen_39773.html