毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
基于云平台的web日志挖掘与研究(4)
4、web服务器的性能瓶颈:这个信息爆炸的时期,用户对于网站的效应速度容忍度已经达到毫秒的级别,因为一个网站的性能直接关系到用户的响应速度,所以对于性能的改进,对于用户的体验能够有很大的帮助,通过对web日志挖掘,可以看出网站性能的瓶颈在哪里,从而能够改进web的负载均衡及数据分布策略等。
1.4 论文组织结构
论文第一章主要介绍了本课题的研究背景,包括web日志数据量的快速增长,调研了国内外各种web日志挖掘工具的优缺点,分析了现在日志挖掘的瓶颈,引出分布式计算框架hadoop[13]。并且给出了本文的研究内容和研究意义。
论文第二章,重点介绍hadoop生态圈,介绍分布式存储系统HDFS的结构和运行机制,介绍mapreduce分布式计算框架的结构。并且介绍数据采集工具flume的运行机制,介绍基于mapreduce的HIVE数据挖掘工具、Hbase分布式数据库和sqoop并行数据迁移工具[14]。
论文第三章,介绍web日志挖掘的需求分析,重点介绍web日志挖掘系统的整体设计包括数据采集系统设计,web日志预处理算法设计,数据迁移和数据展示设计[15]。
论文第四章,主要进行系统的实现,并进行测试和性能分析。搭建测试环境,主要包括配置hadoop、HDFS、mapredece、Hbase、hive、sqoop、flume、mysql等框架;然后使用配置好的环境进行实验并对实验结果进行分析、性能测试、测试结果分析[16]。
论文第五章,主要是总结本文的工作,并对一些不足的地方提出改善的建议。
1.5 本章小结
本章主要介绍了本课题的研究背景,包括web日志数据量的快速增长,调研了国内外各种web日志挖掘工具的优缺点,分析了现在日志挖掘的瓶颈,引出分布式计算框架hadoop。并且给出了本文的研究内容和研究意义。最后列出了本文的组织结构,并简单介绍了每一章节的内容。
2 Hadoop整体架构
2.1 hadoop生态系统简介
Hadoop系统模型最初是受到Google公司的早期产品GFS、Map-Reduce和BigTable启发而进行立项的,并在2008年成为apache的顶级开源项目,全球开发者进行文护和开发。同时,随着这个hadoop生态系统的完善,已经不仅仅只是一个分布式文件系统和分布式计算框架,其包含了flume,hive,sqoop,hbase,impala,pig,mahout,zookeeper等子框架。其中HDFS类似于Google的GFS分布式文件系统,但性能优于GFS文件系统,其根本就是一个文件存储系统;mapreduce类似于Google的Map-Reduce分布式计算模型;Hbase非关系型数据库类似于Google的BigTable数据库;flume是一个服务器数据采集或者数据迁移框架,负责把所需的数据传输到HDFS或者其他分布式文件系统中;hive其实际是一个数据仓库,负责对建立于HDFS上的表进行数据分析和数据挖掘;sqoop是一个并行数据迁移框架,能够很好的连接传统型数据库(Oracle、mysql等)和HDFS上,并进行数据迁移;impala类似于hive角色,是新一代的数据挖掘工具,其性能优于hive;mahout是基于mapreduce开发的机器学习框架,包含了基本的分类,聚类机器学习算法;zookeeper是负责hadoop所有节点的负载均衡[1
共4页:
上一页
1
2
3
4
下一页
上一篇:
银行叫号系统的程序设计
下一篇:
基于hadoop的数据挖掘算法研究与实现
基于Apriori算法的电影推荐
考证平台静态网页设计与制作
基于PageRank算法的网络数据分析
基于神经网络的验证码识别算法
基于网络的通用试题库系...
python基于决策树算法的球赛预测
基于消费者个性特征的化...
志愿者活动的调查问卷表
AT89C52单片机的超声波测距...
国内外图像分割技术研究现状
公寓空调设计任务书
C#学校科研管理系统的设计
中国学术生态细节考察《...
承德市事业单位档案管理...
神经外科重症监护病房患...
医院财务风险因素分析及管理措施【2367字】
10万元能开儿童乐园吗,我...