基于云平台的web日志挖掘与研究(4)

4、web服务器的性能瓶颈：这个信息爆炸的时期，用户对于网站的效应速度容忍度已经达到毫秒的级别，因为一个网站的性能直接关系到用户的响应速度，所以对于性能的改进，对于用户的体验能够有很大的帮助，通过对web日志挖掘，可以看出网站性能的瓶颈在哪里，从而能够改进web的负载均衡及数据分布策略等。
1.4    论文组织结构
论文第一章主要介绍了本课题的研究背景，包括web日志数据量的快速增长，调研了国内外各种web日志挖掘工具的优缺点，分析了现在日志挖掘的瓶颈，引出分布式计算框架hadoop[13]。并且给出了本文的研究内容和研究意义。
论文第二章，重点介绍hadoop生态圈，介绍分布式存储系统HDFS的结构和运行机制，介绍mapreduce分布式计算框架的结构。并且介绍数据采集工具flume的运行机制，介绍基于mapreduce的HIVE数据挖掘工具、Hbase分布式数据库和sqoop并行数据迁移工具[14]。
论文第三章，介绍web日志挖掘的需求分析，重点介绍web日志挖掘系统的整体设计包括数据采集系统设计，web日志预处理算法设计，数据迁移和数据展示设计[15]。
论文第四章，主要进行系统的实现，并进行测试和性能分析。搭建测试环境，主要包括配置hadoop、HDFS、mapredece、Hbase、hive、sqoop、flume、mysql等框架；然后使用配置好的环境进行实验并对实验结果进行分析、性能测试、测试结果分析[16]。
论文第五章，主要是总结本文的工作，并对一些不足的地方提出改善的建议。
1.5    本章小结

本章主要介绍了本课题的研究背景，包括web日志数据量的快速增长，调研了国内外各种web日志挖掘工具的优缺点，分析了现在日志挖掘的瓶颈，引出分布式计算框架hadoop。并且给出了本文的研究内容和研究意义。最后列出了本文的组织结构，并简单介绍了每一章节的内容。
2    Hadoop整体架构
2.1    hadoop生态系统简介
Hadoop系统模型最初是受到Google公司的早期产品GFS、Map-Reduce和BigTable启发而进行立项的，并在2008年成为apache的顶级开源项目，全球开发者进行文护和开发。同时，随着这个hadoop生态系统的完善，已经不仅仅只是一个分布式文件系统和分布式计算框架，其包含了flume,hive,sqoop,hbase,impala,pig,mahout,zookeeper等子框架。其中HDFS类似于Google的GFS分布式文件系统，但性能优于GFS文件系统，其根本就是一个文件存储系统；mapreduce类似于Google的Map-Reduce分布式计算模型；Hbase非关系型数据库类似于Google的BigTable数据库；flume是一个服务器数据采集或者数据迁移框架，负责把所需的数据传输到HDFS或者其他分布式文件系统中；hive其实际是一个数据仓库，负责对建立于HDFS上的表进行数据分析和数据挖掘；sqoop是一个并行数据迁移框架，能够很好的连接传统型数据库（Oracle、mysql等）和HDFS上，并进行数据迁移；impala类似于hive角色，是新一代的数据挖掘工具，其性能优于hive；mahout是基于mapreduce开发的机器学习框架，包含了基本的分类，聚类机器学习算法；zookeeper是负责hadoop所有节点的负载均衡[1 基于云平台的web日志挖掘与研究(4):http://www.youerw.com/jisuanji/lunwen_39773.html