4、web服务器的性能瓶颈:这个信息爆炸的时期,用户对于网站的效应速度容忍度已经达到毫秒的级别,因为一个网站的性能直接关系到用户的响应速度,所以对于性能的改进,对于用户的体验能够有很大的帮助,通过对web日志挖掘,可以看出网站性能的瓶颈在哪里,从而能够改进web的负载均衡及数据分布策略等。
1.4    论文组织结构
论文第一章主要介绍了本课题的研究背景,包括web日志数据量的快速增长,调研了国内外各种web日志挖掘工具的优缺点,分析了现在日志挖掘的瓶颈,引出分布式计算框架hadoop[13]。并且给出了本文的研究内容和研究意义。
论文第二章,重点介绍hadoop生态圈,介绍分布式存储系统HDFS的结构和运行机制,介绍mapreduce分布式计算框架的结构。并且介绍数据采集工具flume的运行机制,介绍基于mapreduce的HIVE数据挖掘工具、Hbase分布式数据库和sqoop并行数据迁移工具[14]。
论文第三章,介绍web日志挖掘的需求分析,重点介绍web日志挖掘系统的整体设计包括数据采集系统设计,web日志预处理算法设计,数据迁移和数据展示设计[15]。
论文第四章,主要进行系统的实现,并进行测试和性能分析。搭建测试环境,主要包括配置hadoop、HDFS、mapredece、Hbase、hive、sqoop、flume、mysql等框架;然后使用配置好的环境进行实验并对实验结果进行分析、性能测试、测试结果分析[16]。
论文第五章,主要是总结本文的工作,并对一些不足的地方提出改善的建议。
1.5    本章小结

本章主要介绍了本课题的研究背景,包括web日志数据量的快速增长,调研了国内外各种web日志挖掘工具的优缺点,分析了现在日志挖掘的瓶颈,引出分布式计算框架hadoop。并且给出了本文的研究内容和研究意义。最后列出了本文的组织结构,并简单介绍了每一章节的内容。
2    Hadoop整体架构
2.1    hadoop生态系统简介
Hadoop系统模型最初是受到Google公司的早期产品GFS、Map-Reduce和BigTable启发而进行立项的,并在2008年成为apache的顶级开源项目,全球开发者进行文护和开发。同时,随着这个hadoop生态系统的完善,已经不仅仅只是一个分布式文件系统和分布式计算框架,其包含了flume,hive,sqoop,hbase,impala,pig,mahout,zookeeper等子框架。其中HDFS类似于Google的GFS分布式文件系统,但性能优于GFS文件系统,其根本就是一个文件存储系统;mapreduce类似于Google的Map-Reduce分布式计算模型;Hbase非关系型数据库类似于Google的BigTable数据库;flume是一个服务器数据采集或者数据迁移框架,负责把所需的数据传输到HDFS或者其他分布式文件系统中;hive其实际是一个数据仓库,负责对建立于HDFS上的表进行数据分析和数据挖掘;sqoop是一个并行数据迁移框架,能够很好的连接传统型数据库(Oracle、mysql等)和HDFS上,并进行数据迁移;impala类似于hive角色,是新一代的数据挖掘工具,其性能优于hive;mahout是基于mapreduce开发的机器学习框架,包含了基本的分类,聚类机器学习算法;zookeeper是负责hadoop所有节点的负载均衡[1
上一篇:银行叫号系统的程序设计
下一篇:基于hadoop的数据挖掘算法研究与实现

基于Apriori算法的电影推荐

考证平台静态网页设计与制作

基于PageRank算法的网络数据分析

基于神经网络的验证码识别算法

基于网络的通用试题库系...

python基于决策树算法的球赛预测

基于消费者个性特征的化...

志愿者活动的调查问卷表

AT89C52单片机的超声波测距...

国内外图像分割技术研究现状

公寓空调设计任务书

C#学校科研管理系统的设计

中国学术生态细节考察《...

承德市事业单位档案管理...

神经外科重症监护病房患...

医院财务风险因素分析及管理措施【2367字】

10万元能开儿童乐园吗,我...